부분 관찰 게임에서 보정과 내부 무후회 전략의 연결
이 논문은 보정된 전략이 내부 후회를 최소화하는 보조 게임을 통해 얻어질 수 있음을 보이고, 그 역도 성립함을 증명한다. 또한 신호만 관찰되는 부분 관찰 게임에서 내부 무후회 전략을 구성하기 위해 Blackwell 접근가능성 이론을 활용한다.
저자: Vianney Perchet (EC)
1. 서론
논문은 온라인 학습과 게임 이론에서 두 가지 핵심 개념인 보정(calibration)과 내부 후회(internal regret)를 연결한다. 보정은 예측이 실제 관찰과 일치하도록 하는 성질이며, 내부 후회는 전략이 특정 행동 교체에 대해 손실을 최소화했는지를 평가한다. 기존 연구는 내부 무후회 전략을 사용해 보정된 전략을 얻을 수 있음을 보였지만, 그 역관계는 미해결 상태였다. 또한 대부분의 결과는 완전 관찰(full monitoring) 상황에 국한돼 있어, 실제 시스템에서 흔히 나타나는 부분 관찰(partial monitoring) 환경에 적용하기 어려웠다.
2. 기본 정의와 모델
- 기본 게임: 두 플레이어가 행동 집합 \(A_i\)와 손실 함수 \(\ell_i: A_1 \times A_2 \to
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기