강화학습으로 구현한 축구 드리블 에이전트: Sarsa‑CMAC 접근법

본 논문은 RoboCup 시뮬레이터 환경에서 축구 드리블 과제를 강화학습으로 해결한다. 에이전트는 5개의 매크로‑액션과 5개의 상태 변수만을 이용해 Sarsa 알고리즘과 CMAC 함수 근사기를 결합해 정책을 학습한다. 훈련 후 고정된 적 정책에 대해 약 58 %의 성공률을 달성한다.

저자: Arthur Carvalho, Renato Oliveira

**1. 서론** 논문은 RoboCup 시뮬레이터에서 축구 드리블 과제를 강화학습으로 해결하고자 한다. 드리블러는 시작점에서 오른쪽 라인까지 공을 유지하며 이동해야 하고, 적은 고정된 정책으로 공을 탈취하려 한다. 시뮬레이터의 비동기·노이즈 특성 때문에 전통적인 테이블 기반 RL은 비현실적이며, 따라서 함수 근사가 필요하다. **2. 드리블 과제 정의** 에피소드는 드리블러가 첫 행동을 취할 때 시작하고, 적이 공을 탈취하거나 공이 오른쪽 라인을 넘어가면 종료된다. 승패는 코치가 선언한다. 목표는 승리 에피소드 비율을 최대화하는 정책을 학습하는 것이다. 드리블러와 적은 각각 매크로‑액션을 사용한다. 드리블러는 HoldBall과 네 가지 Dribble(θ, k) 액션을 갖고, 적은 HoldBall(공을 잡은 경우)과 공‑속도 기반 최적 인터셉션을 수행한다. **3. 상태 표현** 상태는 다섯 개 변수로 구성된다: - posY(dribbler) ∈ {−1,0,1} (상하 라인 근접 여부) - ang(dribbler) ∈

강화학습으로 구현한 축구 드리블 에이전트: Sarsa‑CMAC 접근법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기