정책 최적화, 제로섬 선형 이차 게임에서 내시 균형으로 확실히 수렴

본 논문은 제로섬 선형 이차(LQ) 게임을 정책 최적화 관점에서 분석한다. 비볼록·비오목 구조에도 불구하고, 선형 피드백 정책의 정적점이 바로 게임의 내시 균형(Nash equilibrium)임을 증명한다. 이를 기반으로 세 가지 투사형 중첩 그라디언트 알고리즘을 설계하고, 전역적으로는 서브선형, 국부적으로는 선형 수렴률을 보장한다. 실험을 통해 제안 알고리즘의 수렴 특성을 확인하였다.

저자: Kaiqing Zhang, Zhuoran Yang, Tamer Bac{s}ar

**1. 연구 배경 및 동기** 강화학습(RL)에서 정책 최적화(Policy Optimization, PO)는 연속 제어와 고차원 액션 공간을 다루는 데 유리하지만, 다중 에이전트 제로섬 마르코프 게임에서는 이론적 보장이 부족했다. 특히, 두 플레이어가 동시에 정책을 업데이트하면 비정상적인 순환이나 발산이 발생한다는 보고가 있다. 이러한 문제를 명확히 이해하기 위해 저자들은 가장 단순하면서도 실용적인 제로섬 게임인 선형 이차(LQ) 게임을 선택했다. LQ 게임은 시스템이 선형이며 비용이 2차 형태이기 때문에 해석이 가능하면서도, 일반적인 연속 제어 문제를 선형화했을 때 나타나는 구조를 그대로 담고 있다. **2. 문제 정의** 시스템 동역학은 \(x_{t+1}=Ax_t+Bu_t+Cv_t\) 로 주어지고, 플레이어 1은 비용을 최소화, 플레이어 2는 최대화한다. 비용은 \

정책 최적화, 제로섬 선형 이차 게임에서 내시 균형으로 확실히 수렴

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기