국부 전략 개선을 통한 파리티 게임 해결
초록
본 논문은 파리티 게임을 전체 그래프를 미리 로드하지 않고, 탐색과 전략 개선을 동시에 수행하는 국부 전략 개선 알고리즘을 제안한다. 기존의 전역 전략 개선 방식이 전체 게임을 필요로 하는 반면, 제안된 방법은 필요한 부분만 동적으로 탐색하면서 승리 영역을 판별한다. 실험 결과, 특히 목표 노드가 전체 그래프에 비해 작은 경우에 기존 전역 알고리즘 및 유일한 기존 국부 알고리즘보다 수십 배에서 수천 배까지 빠른 성능을 보였다.
상세 분석
파리티 게임은 무한 경로 위에서 가장 큰 색상의 짝·홀에 따라 승패가 결정되는 2인 제로섬 게임으로, 모델 검증·합성 등 다양한 분야에서 핵심적인 역할을 한다. 전통적인 전략 개선(Strategy Improvement, SI) 알고리즘은 초기 전략을 설정한 뒤, 각 단계에서 현재 전략이 개선될 수 있는 “향상 가능한” 엣지를 찾아 교체함으로써 최적 전략에 수렴한다. 이러한 전역 SI는 전체 게임 그래프가 메모리에 존재해야 하며, 모든 노드에 대한 전략을 동시에 관리한다는 비용이 크다. 특히 실제 응용에서는 특정 시작 노드 혹은 소수의 관심 노드에 대한 승리 여부만이 필요할 때, 전체 그래프를 로드하는 것은 비효율적이다.
논문은 이러한 문제점을 해결하기 위해 “국부 전략 개선(Local Strategy Improvement, LSI)” 프레임워크를 설계한다. 핵심 아이디어는 두 가지 작업을 동시에 수행하는 것이다. 첫째, 현재 탐색된 부분 그래프에 대해 전통적인 SI 절차를 적용하여 전략을 개선한다. 둘째, 전략 개선 과정에서 “향상 가능한” 엣지가 현재 탐색된 영역 밖에 존재할 경우, 해당 엣지를 따라 새로운 노드를 동적으로 로드하고 그래프를 확장한다. 이렇게 하면 초기에는 매우 작은 서브그래프만 메모리에 존재하고, 필요에 따라 점진적으로 확장되므로 메모리 사용량과 탐색 비용이 크게 감소한다.
알고리즘의 형식적 정의는 다음과 같다. 게임 G=(V,E,Ω)와 시작 노드 s가 주어지면, 현재 서브그래프 G’⊆G와 전략 σ를 유지한다. 매 반복마다 (1) σ가 향상 가능한지 검사하고, (2) 향상 가능한 엣지가 G’ 내부에 있으면 기존 SI와 동일하게 교체한다. (3) 향상 가능한 엣지가 G’ 외부에 있으면 해당 목표 노드를 G’에 추가하고, 새로운 노드에 대한 초기 전략을 설정한다. 이 과정을 σ가 더 이상 향상되지 않을 때까지 반복한다. 논문은 이 절차가 전역 SI와 동일한 최종 전략(즉, 승리 영역)을 보장함을 정리와 증명을 통해 제시한다. 특히, 국부 탐색이 무한히 진행될 위험을 방지하기 위해 “방문 제한”과 “우선순위 기반 확장” 전략을 도입하여, 높은 우선순위(큰 색상)를 가진 노드가 먼저 탐색되도록 설계하였다.
성능 측면에서 LSI는 두 가지 주요 이점을 제공한다. 첫째, 메모리 사용량이 전체 그래프 크기에 비례하지 않고, 실제로 탐색된 부분에만 비례한다. 둘째, 전략 개선 단계에서 불필요한 노드들을 건너뛰므로, 특히 목표 노드가 그래프의 작은 부분에 위치한 경우 탐색 깊이가 크게 얕아진다. 실험에서는 다양한 베치와 랜덤 생성 파리티 게임을 대상으로 LSI와 기존 전역 SI(예: Jurdziński‑Vöge, Schewe) 및 유일한 기존 국부 알고리즘(예: Local Model Checking 기반)과 비교하였다. 결과는 LSI가 평균 10배에서 최대 10,000배까지 실행 시간과 메모리 사용량에서 우위를 보였으며, 특히 높은 우선순위가 희소하게 분포된 대규모 그래프에서 그 차이가 두드러졌다.
이 논문은 또한 LSI의 한계와 향후 연구 방향을 논의한다. 현재 구현은 순차적 환경에 최적화되어 있어, 다중 코어·분산 환경에서의 병렬화 가능성은 남아 있다. 또한, 전략 개선 단계에서 “다중 향상 가능한 엣지”를 동시에 처리하는 확장 기법이나, 탐색 순서를 동적으로 조정하는 휴리스틱을 적용하면 더욱 효율적인 성능을 기대할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기