커널 기반 로보컵 킵어웨이 학습

초록

본 논문은 RoboCup 시뮬레이션 축구의 3대 2 킵어웨이 문제를 해결하기 위해 커널 기반 함수 근사와 최소제곱 정책 평가를 결합한 근사 정책 반복(AP‑PI) 프레임워크를 제안한다. 고차원 상태공간과 환경의 불확실성, 실시간 학습 요구를 고려해 정규화 네트워크와 서브셋‑오브‑리그레서(SOR) 방식을 사용하고, 자동화된 감독 기반 기저 함수 선택과 효율적인 재귀 업데이트 알고리즘을 구현하였다. 실험 결과는 기존 타일코딩 기반 방법보다 현저히 높은 성능을 보여준다.

상세 분석

이 연구는 강화학습에서 연속적이고 고차원인 상태공간을 다루는 전형적인 어려움을 커널 방법으로 극복한다는 점에서 의의가 크다. 저자들은 근사 정책 반복(Approximate Policy Iteration, API) 구조 안에 최소제곱 정책 평가(Least‑Squares Policy Evaluation, LSPE)를 삽입하고, 함수 근사기로 정규화 네트워크(Regularization Networks)를 채택한다. 정규화 네트워크는 리히터(Kernel) 함수를 기반으로 하여 무한 차원의 특징 공간을 암묵적으로 활용하지만, 직접적인 계산 비용을 줄이기 위해 서브셋‑오브‑리그레서(Subset‑of‑Regressors, SoR) 기법을 적용한다. SoR은 전체 데이터 집합 중 대표적인 몇 개의 베이스 포인트만을 선택해 커널 행렬을 근사함으로써 메모리와 연산 복잡도를 O(M²) → O(m²) (m≪M) 로 감소시킨다.

핵심적인 공헌은 두 가지이다. 첫째, 온라인 학습 상황에 맞춰 재귀적으로 가중치를 업데이트하는 알고리즘을 설계했다. 이는 기존 배치식 LSPE와 달리 매 타임스텝마다 새로운 샘플을 받아 즉시 모델을 갱신할 수 있게 하여 실시간 로보컵 시뮬레이션에 적합하도록 만든다. 둘째, 자동화된 감독 기반 기저 함수 선택 메커니즘을 도입했다. 새로운 샘플이 들어올 때마다 현재 기저 집합에 대한 예측 오차와 커널 기저의 기여도를 평가하고, 사전에 정의된 임계값을 초과하면 해당 샘플을 새로운 기저로 추가한다. 이 과정은 과적합을 방지하면서도 필요한 표현력을 유지한다.

또한, 논문은 3대 2 킵어웨이 환경의 특성을 상세히 분석한다. 상태는 선수 위치, 볼 위치, 속도 등 13개의 연속 변수로 구성되며, 이는 타일코딩과 같은 이산화 방식으로는 차원 폭발을 일으킨다. 커널 기반 접근은 이러한 연속 변수를 자연스럽게 다루며, 스테이트 전이의 확률적 변동성(노이즈와 다중 에이전트 상호작용)에도 강인한 근사 성능을 제공한다. 정책은 ε‑greedy 형태의 행동 선택을 사용하고, 가치 함수는 Q‑함수 근사로 구현된다. 실험에서는 5000 에피소드 동안 학습을 진행했으며, 평균 점수와 성공률이 기존 타일코딩 기반 방법보다 15~20% 이상 향상된 것으로 보고된다.

전체적으로 이 논문은 커널 기반 강화학습이 실시간 로봇 제어와 같이 고차원, 비선형, 불확실한 환경에 적용될 수 있음을 실증적으로 보여준다. 특히 자동 기저 선택과 재귀 업데이트 메커니즘은 메모리 제한이 있는 로봇 시스템에 직접 적용 가능하도록 설계된 점이 주목할 만하다.