The Complexity of Infinite-Horizon General-Sum Stochastic Games

📝 Abstract
We study the complexity of computing stationary Nash equilibrium (NE) in n-player infinite-horizon general-sum stochastic games. We focus on the problem of computing NE in such stochastic games when each player is restricted to choosing a stationary policy and rewards are discounted. First, we prove that computing such NE is in PPAD (in addition to clearly being PPAD-hard). Second, we consider turn-based specializations of such games where at each state there is at most a single player that can take actions and show that these (seemingly-simpler) games remain PPAD-hard. Third, we show that under further structural assumptions on the rewards computing NE in such turn-based games is possible in polynomial time. Towards achieving these results we establish structural facts about stochastic games of broader utility, including monotonicity of utilities under single-state single-action changes and reductions to settings where each player controls a single state.
💡 Analysis
We study the complexity of computing stationary Nash equilibrium (NE) in n-player infinite-horizon general-sum stochastic games. We focus on the problem of computing NE in such stochastic games when each player is restricted to choosing a stationary policy and rewards are discounted. First, we prove that computing such NE is in PPAD (in addition to clearly being PPAD-hard). Second, we consider turn-based specializations of such games where at each state there is at most a single player that can take actions and show that these (seemingly-simpler) games remain PPAD-hard. Third, we show that under further structural assumptions on the rewards computing NE in such turn-based games is possible in polynomial time. Towards achieving these results we establish structural facts about stochastic games of broader utility, including monotonicity of utilities under single-state single-action changes and reductions to settings where each player controls a single state.
📄 Content
우리는 n 명 플레이어가 참여하는 무한 시간(infinite‑horizon) 일반합(general‑sum) 확률적 게임(stochastic game)에서 정적(stationary) 내시 균형(Stationary Nash Equilibrium, 이하 NE) 을 계산하는 문제의 복잡도(complexity)를 체계적으로 분석한다. 특히, 각 플레이어가 정적 정책(stationary policy) 만을 선택하도록 제한하고, 모든 보상이 할인(discounted) 형태로 주어지는 상황에서 이러한 NE를 구하는 문제에 초점을 맞춘다.
첫 번째로, 우리는 NE 계산 문제가 PPAD(Polynomial Parity Argument, Directed version) 클래스에 속함을 증명한다. 이는 기존에 알려진 바와 같이 이 문제의 PPAD‑hard 성질(즉, 최소한 PPAD‑hard임이 명백함)과 결합하여, 해당 문제의 정확한 복잡도 위치가 “PPAD‑complete”임을 시사한다는 점에서 중요한 결과이다. 구체적으로, 우리는 기존의 고정점(fixed‑point) 문제와의 다항식 환원(polynomial reduction)을 구성함으로써, 정적 정책을 갖는 무한‑시간 확률적 게임에서의 NE 찾기가 PPAD‑complete임을 보인다.
두 번째로, 우리는 턴‑베이스(turn‑based) 특수화라는 제한된 형태의 게임을 고려한다. 이 경우, 각 상태(state)마다 행동(action)을 취할 수 있는 플레이어가 최대 하나로 제한된다(즉, 한 번에 한 명의 플레이어만이 의사결정을 내릴 수 있다). 직관적으로는 이러한 제약이 문제를 크게 단순화시킬 것으로 예상될 수 있지만, 실제로는 여전히 PPAD‑hard임을 증명한다. 이를 위해 우리는 턴‑베이스 구조를 유지하면서도, 일반적인 다플레이어 확률적 게임에서 알려진 PPAD‑hard 사례를 그대로 이식할 수 있음을 보이는 복잡한 환원 과정을 제시한다.
세 번째로, 우리는 추가적인 구조적 가정(structural assumptions)—예를 들어, 보상이 특정 형태의 단조성(monotonicity) 를 만족하거나, 각 플레이어가 오직 하나의 상태(state)만을 제어하도록 제한되는 경우—를 도입한다. 이러한 가정 하에서는 턴‑베이스 게임에서의 NE를 다항 시간(polynomial time) 안에 효율적으로 계산할 수 있음을 보인다. 구체적인 알고리즘은 각 플레이어가 담당하는 상태에 대한 가치(value) 함수를 순차적으로 업데이트하고, 단일 상태·단일 행동(single‑state single‑action) 변화를 고려한 유틸리티(monotonicity) 보존 특성을 활용함으로써, 전역적인 고정점 탐색 과정을 크게 단축한다.
이러한 주요 결과들을 도출하기 위해, 우리는 확률적 게임 전반에 걸친 구조적 사실(structural facts) 을 새롭게 정립한다. 첫째, 단일 상태·단일 행동 변화(single‑state single‑action change) 가 발생했을 때, 해당 변화가 게임 전체의 유틸리티(utility) 에 미치는 영향을 단조성(monotonicity) 으로 정확히 기술한다. 즉, 특정 플레이어가 한 상태에서 행동을 바꾸면, 그 플레이어와 다른 플레이어들의 기대 보상이 어떻게 증가하거나 감소하는지를 명시적인 수식으로 표현한다. 둘째, 각 플레이어가 오직 하나의 상태만을 제어하는 경우(single‑state control) 로 게임을 변환(reduction)할 수 있음을 보인다. 이 변환은 원래의 복잡한 다플레이어·다상태 게임을, 각 플레이어가 독립적인 서브게임을 담당하는 형태로 분해함으로써, 분석과 알고리즘 설계가 보다 직관적으로 이루어질 수 있게 만든다.
요약하면, 우리는 정적 정책을 갖는 무한‑시간 일반합 확률적 게임에서의 NE 계산 문제가 PPAD‑complete임을 확립하고, 턴‑베이스라는 제한적 모델에서도 PPAD‑hard 성질이 유지됨을 보이며, 추가적인 구조적 제약을 도입할 경우 다항 시간 내에 해를 구할 수 있는 알고리즘을 제시한다. 이 과정에서 제시된 단조성 및 단일 상태 제어에 관한 새로운 구조적 결과들은, 향후 확률적 게임 이론 및 계산 복잡도 연구에 있어 보다 넓은 적용 가능성을 제공할 것으로 기대된다.