비결정적 전략을 활용한 파리티 게임 전략 반복 알고리즘

**1. 서론** 파리티 게임은 모델 검증, µ‑계산 논리 등에서 핵심적인 역할을 하는 두 플레이어 영원 게임이다. 현재까지 다항 시간 알고리즘은 알려지지 않았으며, UP∩co‑UP에 속한다는 점에서 효율적인 근사 방법이 활발히 연구되고 있다. 그 중 하나가 **전략 반복(strategy iteration)** 혹은 **전략 개선(strategy improvement)** 기법이다. 기존 연구에서는 플레이어가 각 정점마다 단 하나의 후속만 선택하는 결정적 전략에 국한되었으며, 개선 단계에서 “이득 전환”을 선택하거나 무작위로 전환하는 방식이 제안되었다. **2. 사전 지식** 파리티 게임 아레나는 (V, E, o, c) 로 정의되며, o:V→{0,1}는 정점 소유자를, c:V→{0,…,d‑1}는 색(우선순위)를 지정한다. 무한 경로의 최고 색의 짝·홀 여부에 따라 승패가 결정된다. 메모리 없는 전략은 각 플레이어 정점에서 가능한 후속 집합을 지정한다. 결정적 전략은 각 정점당 하나의 후속만을 허용한다. **3. 탈출 아레나(Escape Arena)와 비결정적 전략** Bjӧrklund·Sandberg·Vöge는 0‑플레이어가 패배할 가능성이 있는 무한 경로를 **탈출**하도록 ⊥(sink) 정점을 추가하는 방식을 제안했다. 논문은 이를 그대로 차용하면서, 0‑플레이어가 선택할 수 있는 후속을 **비공허한 집합**으로 확장한다. 즉, 전략 σ⊆E₀는 각 0‑정점 v에 대해 여러 후속을 동시에 허용한다. 이러한 비결정적 전략을 “reasonable”이라 정의하고, 1‑플레이어가 0‑플레이어의 전략에 대해 만들 수 있는 1‑지배 사이클이 없도록 전처리한다. **4. 가치 함수와 전략 비교** 주어진 비결정적 전략 σ에 대해, 1‑플레이어는 메모리 없는 전략 τ를 선택해 최악의 플레이를 만들 수 있다. 각 정점 s에 대해 Vσ(s) = min_{τ⊆E₁} max_{π∈Plays_{σ,τ}(s)} ℘(π) 를 정의한다. 여기서 ℘(π) 는 색 프로파일이며, 무한 플레이는 ∞ 혹은 −∞ 로 치환한다. ≺ 순서는 −∞ < finite 프로파일 < ∞ 로 정의되며, 프로파일 간 비교는 최고 색의 짝·홀에 따라 수행된다. 두 전략 σ₁, σ₂에 대해 Vσ₁(s) ≺ Vσ₂(s) 가 모든 s에 대해 성립하면 σ₁ ≺ σ₂ 로 정의한다. **5. 전략 개선 알고리즘** 알고리즘은 초기 전략 σ₀ = V₀×{⊥} (모든 0‑정점이 바로 ⊥ 로 이동) 로 시작한다. 반복 단계는 다음과 같다. 1) 현재 σ의 가치 Vσ를 계산한다. 2) 각 정점 v∈V₀에 대해, 현재 선택 집합 Sv ⊆ vE 중 **이득 전환**이 가능한 후속을 찾는다. 즉, v에 새로운 후속 w를 추가했을 때 Vσ'(v) ≻ Vσ(v) 가 되는 경우. 3) “모든 이득 전환”을 적용해 σ' = σ ∪ { (v,w) | w∈Profitable(v) } 로 업데이트한다. 4) σ' 가 σ와 동일하면 종료, 아니면 2‑3을 반복한다. 이때, 비결정적 전략을 허용함으로써 한 단계에서 여러 정점의 전환을 동시에 수행할 수 있다. 논문은 **모든 이득 전환**이 지역 최적임을 정리(정리 4.7)하고, 이는 Schewe가 제시한 알고리즘을 동일하게 구현한 것임을 보인다. **6. Jurdzinski‑Vöge와의 비교** Jurdzinski·Vöge는 파리티 게임에 직접 적용되는 전략 반복 알고리즘을 제시했으며, 그들의 가치 함수는 “프로파일” 기반이다. 본 논문은 탈출 아레나와 비결정적 전략을 도입했음에도 불구하고, **같은 가치 함수**를 사용한다는 것을 증명한다(정리 5.1). 따라서 두 알고리즘은 동일한 부분 순서를 공유하고, 비결정적 전략을 허용한 것이 기존 알고리즘을 일반화한 형태임을 확인한다. **7. 복잡도 분석** 알고리즘의 한 단계는 모든 정점에 대해 가능한 후속을 검사하고, 가치 함수를 재계산한다. 가치 재계산은 1‑플레이어의 최악 전략을 찾는 최적화 문제이며, 기존와 동일한 복잡도를 가진다. 전체 반복 횟수에 대해서는 “모든 이득 전환”을 적용했을 때 개선 단계 수가 O(1.724^{|V₀|}) 로 상한됨을 보인다. 이는 이전에 무작위 선택을 통해서만 달성 가능했던 상한이며, 여기서는 완전 결정적 선택만으로도 동일한 결과를 얻는다. 시간 복잡도는 O(|V|²·|E|·(|V|^{d+1})^{d}) 로, 이론적으로는 지수적이지만 실험적으로는 다항 단계 내에 수렴한다. **8. 결론 및 향후 연구** 비결정적 전략을 도입함으로써 전략 반복의 탐색 공간을 크게 확장했음에도 불구하고, 간단한 “모든 이득 전환” 휴리스틱만으로도 지역 최적을 보장하고, 기존 알고리즘과 동일한 가치 함수를 유지한다. 또한, 무작위화 없이도 O(1.724^{n}) 상한을 달성함으로써 전략 반복 기법의 이론적 한계를 크게 높였다. 향후 연구에서는 비결정적 전략을 이용한 **전역 최적** 선택 방법, 그리고 실제 구현에서의 성능 평가를 진행할 필요가 있다.

비결정적 전략을 활용한 파리티 게임 전략 반복 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기