최적 후회와 최소극대 이중성: 확률적 관점에서 본 온라인 학습

최적 후회와 최소극대 이중성: 확률적 관점에서 본 온라인 학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 온라인 볼록 최적화 게임에서 최적 전략의 후회(regret)를 확률 과정과 연결시킨다. von Neumann의 최소극대 정리를 이용해, 적의 행동 시퀀스에 대한 모든 결합 분포에 대해 “예상 손실의 최소 합”과 “경험적 손실의 최소값” 차이의 최댓값이 최적 후회와 동일함을 보인다. 이 차이는 기대 손실을 최소화하는 플레이어 행동에 대한 볼록함수의 Jensen 부등식 차이로 해석되며, 이를 통해 다양한 온라인 학습 문제에 대한 상하한을 직접 도출한다. 특히 하한은 적의 최적 전략을 명시적으로 제공한다.

상세 분석

논문은 온라인 볼록 최적화 게임을 두 플레이어(플레이어와 적)의 제로섬 게임으로 모델링하고, von Neumann의 최소극대 정리를 적용해 원래의 적대적 설정을 확률적(스투케스틱) 설정과 동등하게 만든다. 핵심은 “플레이어가 선택할 수 있는 행동 집합 위에서 기대 손실을 최소화하는 함수”가 볼록이면서 동시에 “적의 행동 시퀀스에 대한 결합 분포”가 정의하는 확률 공간 위에서 정의된다는 점이다. 이때 최적 후회는
\


댓글 및 학술 토론

Loading comments...

의견 남기기