낙관적 로컬 전이로 구현하는 근접 최적 베이지안 강화학습

초록

본 논문은 베이지안 강화학습(BRL)에서 전이 함수에 대한 낙관적 추정을 이용한 BOLT 알고리즘을 제안한다. BOLT은 거의 결정론적인 휴리스틱으로, 샘플 복잡도 분석을 통해 특정 파라미터 설정 하에 베이지안 의미에서 고확률로 근접 최적성을 보장한다. 실험을 통해 기존 방법들과의 차별점을 확인한다.

상세 분석

BOLT은 기존 BRL 접근법이 직면한 “상태‑행동‑전이” 공간의 조합 폭발 문제를 완화하기 위해 전이 모델에 낙관적 편향을 도입한다. 구체적으로, 베이지안 사후 분포에서 샘플링된 전이 확률 대신, 해당 사후의 상한값(upper confidence bound, UCB)을 사용해 가상 전이 행렬을 구성한다. 이는 에이전트가 아직 충분히 탐험되지 않은 상태‑행동 쌍에 대해 높은 보상을 기대하도록 만들며, 탐험을 자연스럽게 촉진한다.

알고리즘은 크게 두 단계로 이루어진다. 첫째, 현재 사후 분포를 기반으로 각 (s,a) 쌍에 대해 “낙관적 전이” (\tilde{P}(·|s,a)) 를 계산한다. 여기서 (\tilde{P})는 사후 평균에 베타 분포의 α‑β 파라미터를 조정한 형태로, 파라미터 λ에 따라 낙관 정도를 조절한다. 둘째, 이 가상 전이 모델을 사용해 표준 가치 반복(Value Iteration) 혹은 정책 반복(Policy Iteration)을 수행한다. 결과적으로 얻어지는 정책은 전이 불확실성을 고려한 “베이지안 낙관적 정책”이 된다.

샘플 복잡도 분석에서는 BOLT이 ε‑근접 최적 정책을 얻기 위해 필요한 에피소드 수를 (\tilde{O}\left(\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^3\epsilon^2}\right)) 로 상한한다. 여기서 (\tilde{O})는 로그 항을 무시한 표기이며, γ는 할인율이다. 이 결과는 기존의 “베이지안 최적 정책”을 찾기 위한 복잡도와 동일한 차수를 유지하면서도, 구현상의 복잡성을 크게 낮춘다. 특히, λ를 (\Theta\left(\frac{1}{1-\gamma}\right)) 로 설정하면, 고확률(1−δ) 하에 정책의 베이지안 가치 차이가 O(ε) 이하가 된다.

실험에서는 GridWorld, RiverSwim, 그리고 Atari 2600의 간소화 버전 등 다양한 도메인에서 BOLT을 비교한다. 결과는 BOLT이 탐험을 과도하게 하지 않으면서도 빠른 수렴을 보이며, 기존의 베이지안 탐험 전략(예: BEB, VBRL)보다 평균 보상이 높고, 학습 곡선이 더 부드럽다는 점을 입증한다. 또한, λ 파라미터에 대한 민감도 분석을 통해 적절한 낙관 수준이 성능에 결정적 영향을 미치지만, 과도한 낙관은 오히려 불안정성을 초래한다는 점을 확인한다.

이 논문의 핵심 기여는 다음과 같다. 첫째, 전이 함수에 대한 낙관적 추정을 통해 BRL의 탐험‑활용 균형을 효율적으로 조정한 새로운 휴리스틱 BOLT을 제안했다. 둘째, BOLT의 근접 최적성을 보장하는 샘플 복잡도 이론을 제공함으로써, “휴리스틱이지만 이론적으로도 타당하다”는 점을 증명했다. 셋째, 다양한 실험을 통해 BOLT이 실제 환경에서도 경쟁력 있는 성능을 발휘함을 실증했다. 이러한 결과는 베이지안 강화학습이 실용적인 수준으로 확장되는 데 중요한 발판을 제공한다.