일반 환경에서 최적화된 탐사‑활용: 톰슨 샘플링의 asymptotic optimality와 서브리니어 regret
본 논문은 가산적인 일반 확률 환경 클래스에서 톰슨 샘플링을 적용한 강화학습 에이전트를 제안한다. 에이전트는 사후 분포에서 환경을 샘플링하고, 샘플된 환경의 최적 정책을 유효 horizon 동안 실행한다. 저자는 (1) 평균값 기준으로 최적 가치에 수렴하는 asymptotic optimality를 증명하고, (2) recoverability 가정 하에 regret이 서브리니어(선형 이하)임을 보인다. 이는 마코프성, ergodicity, 완전 …
저자: Jan Leike, Tor Lattimore, Laurent Orseau
1. **문제 정의와 배경**
- 강화학습(RL)은 에이전트가 미지의 환경과 상호작용하며 누적 보상을 최대화하는 문제이다. 기존 이론은 주로 밴드릿, 마코프 결정 과정(MDP) 등 제한된 환경에 초점을 맞추었으며, ergodicity·완전 관측·마코프성 같은 강한 가정을 필요로 한다. 실제 응용에서는 이러한 가정이 깨지는 경우가 빈번하다.
- 본 논문은 이러한 제한을 완전히 없애고, “일반적인” 확률 환경 클래스 M(가산, 컴퓨팅 가능한 환경 포함)을 대상으로 한다. 환경은 관측·보상 쌍을 생성하는 임의의 확률 함수이며, 마코프성, 에르고딕성, 완전 관측성 등을 요구하지 않는다.
2. **베이지안 프레임워크**
- 사전 w는 M 위에 정의된 확률 분포이며, 관측된 히스토리 æt에 따라 사후 w(·|æt)가 베이즈 규칙으로 업데이트된다. 베이지안 혼합 ξ = Σ_{ν∈M} w(ν)ν 은 모든 가능한 환경에 대한 사전 예측 모델이다.
- 사후는 마르팅게일이며, ξ-또는 실제 환경 µ-확률 하에서 거의 확실히 수렴한다(Hutter 2009 Lemma 3i).
3. **톰슨 샘플링 정책 π_T**
- 알고리즘 1에 정의된 바와 같이, 매 시점 t에 현재 사후에서 환경 ρ를 샘플링한다. 그 후, ρ의 최적 정책 π\*_ρ 를 유효 horizon H_t(ε_t) 동안 실행한다. ε_t는 t→∞일 때 0으로 수렴하는 양의 감소 수열이며, H_t(ε)는 할인 함수 γ의 질량이 1−ε가 되도록 하는 최소 시점이다.
- 이 설계는 “샘플링 → 최적 정책 실행 → 재샘플링”을 반복함으로써 탐사와 활용을 자연스럽게 결합한다.
4. **주요 정리와 증명 개요**
- **정리 4 (평균값 기준 asymptotic optimality)**: 모든 µ∈M에 대해 E_{π_T}^µ
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기