마코프 제로섬 스톱핑 게임을 위한 전방 알고리즘

마코프 제로섬 스톱핑 게임을 위한 전방 알고리즘
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 유한 상태 공간을 갖는 동질 연속시간 마코프 체인 위에서 정의되는 제로섬 스톱핑 게임의 가치 함수와 최적 정지 영역을 효율적으로 계산하는 새로운 전방(forward) 알고리즘을 제시한다. 기존의 단일 플레이어 최적 정지 문제에 대한 전방 알고리즘을 두 플레이어 게임에 확장하고, 반복 단계마다 선형 시스템을 풀어가며 최대 |E|² 단계 내에 수렴함을 증명한다. 알고리즘은 가치 함수 V, 그리고 {V=ψ}와 {V=ϕ}라는 두 임계 집합을 동시에 복원한다.

상세 분석

이 논문은 먼저 제로섬 스톱핑 게임을 수학적으로 정형화한다. sup‑플레이어는 정지 시점 τ를 선택해 기대 보상 Rₓ(τ,γ)=Eₓ


댓글 및 학술 토론

Loading comments...

의견 남기기