동시 도달·안전 게임 전략 개선

초록

본 논문은 동시 게임에서 도달과 안전 목표에 대해 메모리리스 ε-최적 전략의 존재를 보다 직관적인 증명으로 제시하고, 두 목표에 대한 전략 개선 알고리즘을 제안한다. 특히 안전 게임에 대한 알고리즘은 값의 하한을 점진적으로 근사할 수 있는 최초의 방법을 제공한다.

상세 분석

동시 게임(concurrent game)은 두 플레이어가 매 라운드마다 독립적으로 행동을 선택하고, 그 조합이 다음 상태를 결정한다는 점에서 순차적 게임과 근본적으로 다르다. 이러한 비동기성은 전략의 복잡성을 크게 증가시키며, 특히 최적 전략이 메모리(역사) 의존성을 가질 가능성을 열어준다. 그러나 도달(reachability) 목표와 그 듀얼인 안전(safety) 목표에 대해서는 메모리리스 전략만으로도 ε-최적성을 달성할 수 있다는 것이 기존 연구에서 알려져 있다. 기존 증명은 주로 측정 이론이나 고전적인 고정점 정리를 활용했으며, 구현 관점에서 직관성이 떨어진다.

본 논문은 이러한 배경을 바탕으로 두 가지 핵심 기여를 제시한다. 첫째, 도달 게임에서 ε-최적 메모리리스 전략이 존재함을 “보다 단순하고 조합론적인” 증명으로 재구성한다. 핵심 아이디어는 상태별로 플레이어 1이 선택할 확률 분포를 미세하게 조정함으로써, 상대의 반응에 관계없이 목표 집합에 도달할 확률을 임의의 ε만큼 끌어올릴 수 있다는 점이다. 이를 위해 게임 그래프를 확률적 전이 행렬로 표현하고, 선형 프로그래밍의 듀얼 관계를 이용해 상한과 하한을 교차시킨다. 결과적으로, 복잡한 측정론적 도구 없이도 메모리리스 ε-전략의 존재를 보일 수 있다.

둘째, 이러한 존재론적 결과를 바탕으로 전략 개선(Policy‑Iteration) 알고리즘을 설계한다. 도달 게임에 대해서는 기존의 정책 반복이 적용될 수 있음을 보이며, 각 반복 단계에서 현재 전략에 대한 가치 함수를 정확히 계산하고, 이를 기반으로 전략을 “greedy”하게 개선한다. 가치 함수는 Bellman 방정식의 해로서, 선형 방정식 시스템을 풀어 얻는다. 이 과정은 수렴성을 보장하고, 각 단계에서 얻어지는 승률이 단조 증가함을 증명한다.

안전 게임에 대해서는 이전에 하한을 구하는 방법이 없었으며, 대부분의 접근법이 상한만을 제공했다. 논문은 안전 목표를 도달 목표의 보완으로 바라보고, 도달 게임에 대한 전략 개선 알고리즘을 역으로 적용한다. 구체적으로, 플레이어 1이 안전 집합을 유지하려는 전략을 점진적으로 강화하면서, 상대의 최적 반응을 고려한 최소 승률을 계산한다. 이때 가치 함수는 “위험도”를 나타내는 확률값으로, 매 반복마다 감소한다(즉, 안전을 유지할 확률이 증가한다). 따라서 알고리즘은 값의 하한을 점진적으로 올려가며, 수렴 시점에 게임의 정확한 가치에 임의의 ε만큼 근접한다.

이러한 두 알고리즘의 가장 큰 실용적 의미는 수렴 속도에 대한 명시적 보장은 없지만, “단조성”이라는 강력한 특성을 제공한다는 점이다. 즉, 각 반복에서 얻어지는 전략은 이전보다 확실히 더 나은 성능을 보장하므로, 구현 시 중간 결과를 바로 활용할 수 있다. 또한, 메모리리스 전략만을 다루므로 상태 공간이 크게 폭발하지 않아, 실제 대규모 시스템 검증이나 로봇 제어와 같은 분야에 적용 가능성이 높다.

전반적으로 논문은 동시 게임 이론에서 오래된 존재론적 결과를 보다 직관적으로 재정립하고, 실용적인 정책 반복 방법을 제시함으로써 이론과 적용 사이의 격차를 메우는 중요한 기여를 한다.