베이지안 강화학습을 위한 분산 기반 보상 보너스

초록

본 논문은 베이지안 강화학습에서 사후 분포의 분산을 이용한 보상 보너스를 제안한다. 평균 MDP에 이 보너스를 더해 계획하면, 비구조적 사전에서는 기존 방법과 유사하지만, 구조화된 사전이 주어졌을 때는 효율적인 탐색과 활용을 동시에 달성한다. 샘플 복잡도가 다항식으로 보장되며, 구조화된 탐색 과제에서 실험적으로 우수함을 확인한다.

상세 분석

베이지안 강화학습은 환경에 대한 사전 분포를 활용해 탐색‑활용 딜레마를 이론적으로 해결한다는 장점이 있다. 그러나 사후 분포 전체에 대해 최적의 행동을 계산하는 베이지안 플래닝은 상태·행동 공간이 커질수록 급격히 계산량이 증가해 실용적이지 않다. 기존 실용적 접근법은 사후 평균 MDP, 즉 사후 기대 전이와 보상을 사용해 플래닝을 수행하는데, 이는 탐색을 거의 무시한 ‘myopic’한 행동을 초래한다. 논문은 이 한계를 극복하기 위해 사후 분포의 분산을 보상에 직접 반영하는 보너스 함수를 도출한다. 구체적으로, 각 (s,a) 쌍에 대해 사후 전이 확률과 보상의 분산을 추정하고, 이를 현재 보상에 가중치 λ와 함께 더한다. 이 보너스는 불확실성이 큰 상태·행동에 대해 높은 탐색 유인을 제공하면서, 평균 MDP 기반 플래닝의 계산 효율성을 그대로 유지한다.

핵심 이론적 기여는 두 가지이다. 첫째, 보너스가 사후 분산에 비례함을 보이는 분산 기반 보상 보너스의 수식적 유도이며, 이는 기존의 정보 이득(info‑gain) 보너스나 베이즈 신뢰 구간(Upper Confidence Bound)과는 달리 사전 구조를 직접 활용한다는 점에서 차별화된다. 둘째, 이 보너스를 적용한 정책이 다항식 샘플 복잡도를 만족한다는 정리(정리 1)를 증명한다. 증명은 사후 분산이 일정 수준 이하로 감소하면 보너스가 거의 사라져 평균 MDP와 동일한 행동을 하게 되며, 그 전까지는 충분히 큰 탐색 보상을 받아 최적 정책에 수렴한다는 점을 기반으로 한다.

실험에서는 구조화된 사전(예: 특정 상태 집합에서 전이가 제한되는 MDP)과 무구조 사전(균등 사전)을 모두 테스트한다. 무구조 사전에서는 제안 방법이 기존 베이즈 UCB, Thompson Sampling 등과 비슷한 성능을 보이지만, 구조화된 사전에서는 사전 정보를 활용해 불필요한 탐색을 줄이고 목표 상태에 빠르게 도달한다. 특히, ‘키-문제(key‑door)’와 같은 복합적인 탐색 과제에서 평균 MDP 플래닝 대비 30%~45% 적은 에피소드 수로 목표를 달성한다.

이러한 결과는 구조화된 사전을 활용할 수 있는 베이지안 RL의 새로운 가능성을 열어준다. 기존 방법들은 사전이 비정보적일 때만 효과적이었으나, 본 접근법은 사전이 제공하는 관계(예: 전이 제약, 보상 상관관계)를 보상 보너스에 직접 매핑함으로써 탐색 효율을 크게 향상시킨다. 또한, 보너스 계산이 사후 분산 추정만으로 가능하므로, 복잡한 베이지안 플래닝을 대체할 수 있는 실용적인 대안으로 자리매김한다.