온라인 탭ular MDP를 위한 데이터·분산 의존형 후회 경계
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
이 논문은 전이 확률이 알려진 에피소드형 탭ular MDP에서, 적대적 환경과 확률적 환경 모두에 대해 하나의 알고리즘으로 데이터 의존적(첫 번째·두 번째 차수, 경로 길이) 및 분산 의존적(갭 독립·갭 의존) 후회 경계를 달성한다. 전역 최적화와 정책 최적화 두 접근법을 제시하고, 각각 낙관적 OFTRL과 로그‑배리어 정규화를 이용해 최적에 근접한 상한을 얻으며, 하한 분석을 통해 제시된 상한이 거의 최적임을 보인다.
상세 분석
본 연구는 전이 모델이 사전에 알려진 제한된 에피소드형 탭ular MDP를 대상으로, 온라인 학습에서 후회(regret)를 최소화하는 새로운 베스트‑오브‑보스‑월드(best‑of‑both‑worlds) 알고리즘을 제안한다. 적대적 손실 생성 모델에서는 기존 연구가 제공하던 1차 손실(첫 번째 차수) 의존 경계만을 개선하는데 그쳤지만, 저자는 손실 변동성(두 번째 차수 Q∞)과 시간에 따른 손실 변화량(경로 길이 V₁)을 정량화하는 새로운 복합 복잡도 지표를 도입한다. 이를 통해 OFTRL(Optimistic Follow‑the‑Regularized‑Leader) 프레임워크에 로그‑배리어 정규화와 적응형 학습률을 결합, 전역 최적화(occupancy measure)와 정책 최적화(각 상태별 행동 분포) 두 가지 구현을 설계한다. 전역 최적화 버전은 후회 상한을
\
댓글 및 학술 토론
Loading comments...
의견 남기기