다항식 확률 게임을 위한 합곱 최적화와 반정밀 해법

본 논문은 무한 전략공간을 갖는 두 플레이어 영-합 제로섬 확률 게임을 대상으로, 전이 확률이 한 플레이어에만 의존하는 ‘단일 컨트롤러’ 가정 하에 다항식 보상과 전이 함수를 이용해 최소극값 균형과 최적 전략을 반정밀(semidefinite) 프로그램으로 구할 수 있음을 보인다.

저자: Parikshit Shah, Pablo A. Parrilo

본 논문은 두 플레이어 영-합 제로섬 확률 게임을 다항식 보상과 전이 확률을 갖는 무한 전략공간(연속 행동 구간)에서 다루며, 전이 확률이 오직 한 플레이어(플레이어 1)의 행동에만 의존한다는 ‘단일 컨트롤러(SC)’ 가정을 핵심으로 삼는다. 이러한 가정은 전이 행렬을 플레이어 1의 전략(확률 측도)의 모멘트와 선형적으로 연결시켜, 무한 차원의 전략 선택 문제를 유한 차원의 모멘트 변수 문제로 변환한다. 1. **문제 정의** - 상태 집합 S는 유한하고, 각 상태마다 두 플레이어가 동시에 행동 a₁∈A₁, a₂∈A₂ 를 선택한다. 여기서 A₁=A₂=

다항식 확률 게임을 위한 합곱 최적화와 반정밀 해법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기