오프라인 강화학습을 위한 샘플 효율적 활성 알고리즘
초록
오프라인 강화학습에 제한된 온라인 상호작용을 추가하여, 가우시안 프로세스(GP) 기반 불확실성 측정을 활용해 고불확실성 영역을 선택적으로 탐색한다. 저자들은 이 방법이 ε‑optimal 정책을 얻기 위해 O(1/ε²)개의 활성 전이만 필요함을 고확률(1‑δ) 하에 증명하고, 순수 오프라인 학습 대비 (1‑γ)⁻⁴에서 (1‑γ)⁻²로 샘플 복잡도가 크게 개선된다고 주장한다.
상세 분석
본 논문은 오프라인 강화학습(Offline RL)의 근본적인 한계인 상태‑행동 공간의 커버리지 부족과 분포 이동 문제를, 제한된 온라인 인터랙션을 통해 보완하는 ‘ActiveRL’ 프레임워크를 제안한다. 핵심 아이디어는 최적 가치 함수 V*에 대해 가우시안 프로세스(GP) 사전을 설정하고, 관측된 오프라인 데이터와 활성 샘플을 순차적으로 GP에 업데이트함으로써 posterior mean µₜ와 posterior variance σₜ²를 얻는 것이다. 이때 σₜ(s)는 현재 상태 s에서의 에피스틱 불확실성을 정량화하며, 알고리즘은 “가장 불확실한 상태”를 선택해 새로운 전이를 수집한다(Algorithm 1).
이 접근법을 이론적으로 정당화하기 위해 저자들은 다섯 가지 가정(A1‑A5)을 도입한다. A1은 보상 범위의 유한성을, A2는 최적 가치 함수가 선택한 커널 k가 정의하는 RKHS에 속하고 유한한 노름 ‖V*‖ₖ ≤ B를 가진다는 점을, A3은 전이 확률이 Lₚ‑리프시츠 연속성을 만족함을, A4는 Bellman 타깃이 가우시안 잡음 ηₜ를 포함한 형태임을, A5는 오프라인 데이터에 의해 초기 GP 불확실성 σ₀(s)의 최대값 σ_max가 유한함을 전제한다. 이러한 가정 하에, 정보 이득 γ_T = max_{|A|=T} I(y_A;V) 를 이용해 GP의 불확실성 감소 속도를 정량화한다. 특히, RBF 커널의 경우 γ_T = O((log T)^{d+1})와 같은 알려진 상한을 활용한다.
주요 정리(Theorem 4.1)는 다음과 같다. 활성 샘플링 정책이 posterior variance를 최대화하는 방식으로 선택될 때, T번의 활성 라운드 후 얻은 정책 π_T는 확률 1‑δ 하에
J(π*) − J(π_T) ≤ C
댓글 및 학술 토론
Loading comments...
의견 남기기