실용적인 AIXI 근사 몬테카를로 트리 탐색과 컨텍스트 트리 가중치
초록
본 논문은 일반 강화학습 이론인 AIXI를 직접 근사하는 실용적인 알고리즘을 제안한다. Monte‑Carlo Tree Search와 Context Tree Weighting을 결합해 계산 가능성을 확보하고, 다양한 확률적·부분관측 환경에서 성능을 검증한다.
상세 분석
AIXI는 베이지안 최적화 이론에 기반한 일반 강화학습 에이전트로, 모든 가능한 환경 모델에 대한 가중 평균을 이용해 행동을 선택한다. 그러나 무한히 큰 모델 클래스와 완전한 탐색 요구 때문에 실제 구현이 불가능했다. 저자들은 이 이론적 장벽을 두 단계의 근사화로 허물었다. 첫 번째는 환경 모델링을 제한된 마코프 결정 과정(MDP) 대신, 가변 길이 컨텍스트 트리를 이용해 확률적 시퀀스 모델링을 수행하는 Context Tree Weighting(CTW) 알고리즘을 적용한 것이다. CTW는 과거 관측·행동 이력을 압축하면서도 효율적인 확률 예측을 제공하므로, AIXI가 요구하는 무한한 환경 가정을 실용적인 유한 모델 집합으로 대체한다. 두 번째는 행동 선택을 위한 탐색 단계에서, 기존의 완전한 기대값 계산을 포기하고 Monte‑Carlo Tree Search(MCTS), 특히 Upper Confidence bounds applied to Trees(UCT) 변형을 도입한다. MCTS는 시뮬레이션 기반으로 미래 보상의 샘플을 추정하고, 탐색‑활용 균형을 동적으로 조절한다. 논문은 이 두 요소를 결합한 “Monte‑Carlo AIXI”(MC‑AIXI) 프레임워크를 정의하고, 알고리즘적 복잡도가 시간당 O(|A|·|O|·d·log N) 수준으로 제한됨을 증명한다. 실험에서는 Gridworld, 2‑step 마르코프 게임, 그리고 부분관측 퍼즐 등에서 기존의 비베이지안 강화학습 방법(QLearning, SARSA, PSRL 등)보다 빠른 수렴과 높은 최종 보상을 기록한다. 특히, 확률적 전이와 관측 노이즈가 심한 환경에서 CTW 기반 모델이 적응성을 유지하며, MCTS가 깊은 탐색 깊이 없이도 충분한 정책 품질을 확보한다는 점이 주목할 만하다. 이 연구는 AIXI 이론이 실제 알고리즘 설계에 직접적인 영감을 줄 수 있음을 입증하고, 베이지안 강화학습과 샘플 기반 탐색의 시너지를 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기