제로섬 마코프 게임에서의 가치 함수 근사
초록
본 논문은 두 에이전트가 동시에 행동하는 제로섬 마코프 게임에서 가치 함수 근사를 어떻게 수행할 수 있는지를 연구한다. 기존 MDP에 대한 오류 한계를 마코프 게임으로 확장하고, LSTD, TD, LSPI 등 강화학습 알고리즘을 일반화한다. 특히 두 플레이어가 동시에 움직이는 최적 정지 문제에 대해 강력한 수렴 및 오류 분석을 제공하며, 축구 시뮬레이션과 흐름 제어 실험을 통해 실용성을 입증한다.
상세 분석
이 논문은 제로섬 마코프 게임(zero‑sum Markov games)을 MDP의 다중 에이전트 확장으로 정의하고, 가치 함수 근사(value function approximation, VFA)의 이론적 기반을 체계화한다. 먼저, 마코프 게임의 상태‑행동 공간을 ((S, A_1, A_2, P, r)) 로 설정하고, 두 플레이어가 동시에 선택하는 행동에 대한 보상은 한쪽의 이득이 다른 쪽의 손실이 되도록 정의한다. 이 구조 하에서 최적 정책은 미니맥스(min‑max) 원칙에 따라 (\pi^1 = \arg\max{\pi_1}\min_{\pi_2} V^{\pi_1,\pi_2}) 와 (\pi^2 = \arg\min{\pi_2}\max_{\pi_1} V^{\pi_1,\pi_2}) 로 표현된다.
논문은 기존 MDP에서 알려진 Bellman 오차와 근사 오차에 대한 경계(bound)를 마코프 게임에 그대로 적용할 수 있음을 보인다. 핵심은 두 플레이어의 정책이 각각 선형 함수 근사 (\hat V(s)=\phi(s)^\top w) 로 표현될 때, Bellman 연산자가 비선형이지만 협동적인 최소‑최대 연산을 포함한다는 점이다. 저자는 이 연산이 (\gamma)-수축성을 유지한다는 사실을 증명하고, 따라서 근사 파라미터 (w) 에 대한 오류는 (|w - w^*| \le \frac{1}{1-\gamma}\epsilon) 형태의 전통적인 MDP 경계와 동일하게 도출된다.
특히, 최적 정지 문제(optimal stopping problem)를 두 플레이어가 동시에 정지를 선택할 수 있는 형태로 일반화한다. 여기서는 각 플레이어가 “continue” 혹은 “stop” 중 하나를 선택하고, 두 명이 모두 “stop”을 선택했을 때 게임이 종료된다. 이 구조는 가치 함수가 한 번의 정지 결정에 의해 크게 변하지 않으므로, LSTD(Least‑Squares Temporal Difference)와 TD(Temporal Difference) 학습이 선형 근사 하에서 수렴함을 보장한다. 저자는 수렴 증명을 위해 고정점 이론과 마코프 연산자의 모노톤성(monotonicity)을 활용한다.
알고리즘적 측면에서는 LSPI(Least Squares Policy Iteration)를 마코프 게임에 적용한다. LSPI는 정책 평가 단계에서 LSTD‑Q를 사용해 Q‑함수의 선형 근사를 구하고, 정책 개선 단계에서 미니맥스 정책을 직접 계산한다. 이때, Q‑함수의 근사 차원은 상태‑행동 쌍 ((s,a_1,a_2)) 에 대한 특징 벡터 (\phi(s,a_1,a_2)) 로 정의되며, 샘플 효율성을 높이기 위해 경험 재사용(replay)과 샘플 평균화를 도입한다.
실험에서는 두 가지 도메인을 선택했다. 첫 번째는 2‑vs‑2 축구 시뮬레이션으로, 각 에이전트는 위치와 볼 소유 여부를 기반으로 행동을 선택한다. LSPI를 통해 학습된 정책은 인간 설계 정책보다 높은 승률을 기록했으며, 특히 방어와 공격 전환 시점에서 미니맥스 전략이 효과적으로 작동함을 보였다. 두 번째는 네트워크 흐름 제어 문제로, 송신자와 수신자가 각각 전송률과 버퍼 관리 정책을 선택한다. 여기서도 LSPI 기반 VFA가 전통적인 동적 프로그래밍에 비해 계산량을 크게 줄이면서도 거의 최적에 가까운 성능을 달성했다.
전체적으로 이 논문은 제로섬 마코프 게임에 대한 가치 함수 근사의 이론적 한계와 실용적 알고리즘을 동시에 제공한다는 점에서 의미가 크다. 특히 최적 정지 문제에 대한 강력한 수렴 보장은 향후 게임 이론, 경제학, 네트워크 제어 등 다양한 분야에 적용 가능성을 열어준다.