동시 안전 게임을 위한 전략 개선 알고리즘

본 논문은 그래프 위에서 진행되는 동시(concurrent) 안전 게임의 값을 계산하기 위한 새로운 전략 개선(Strategy Improvement) 알고리즘을 제시한다. 제안된 방법은 플레이어 1이 안전 목표를 달성할 수 있는 최대 확률을 하한으로 점진적으로 근사시키며, 기존의 값 반복(value‑iteration) 방식이 제공하는 상한과 결합해 양방향 수렴을 보장한다. 또한, 메모리리스(무기억) 최적 전략이 존재함을 이용해 각 반복 단계에서…

저자: Krishnendu Chatterjee, Luca de Alfaro, Thomas A. Henzinger

본 논문은 그래프 위에서 진행되는 두 플레이어 동시 게임(concurrent game)을 연구한다. 각 라운드에서 두 플레이어는 각각의 움직임 집합에서 독립적으로 움직임을 선택하고, 선택된 두 움직임에 따라 확률적 전이 함수 δ에 의해 다음 상태가 결정된다. 이러한 모델은 안전(safety) 목표와 도달(reachability) 목표라는 두 가지 기본 목표를 포함한다. 안전 목표는 미리 지정된 안전 상태 집합 F에 영원히 머무르는 것이며, 도달 목표는 목표 상태 집합 T에 적어도 한 번 도달하는 것이다. 두 목표는 상보 관계에 있으며, 게임은 정량적 결정성을 가진다: 플레이어 1이 안전 목표를 달성할 확률과 플레이어 2가 도달 목표를 달성할 확률은 서로 보완한다. 동시 게임에서 전략은 메모리리스(memoryless) 혹은 메모리 기반 전략으로 정의될 수 있다. 기존 연구에 따르면, 동시 안전 게임에서는 메모리리스 최적 전략이 존재한다

동시 안전 게임을 위한 전략 개선 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기