실시간 동적 계획으로 가속화된 모델 기반 학습

초록

본 논문은 기존 모델 기반 강화학습 알고리즘인 RMAX와 MBIE에 실시간 동적 계획(RTDP)을 적용해 계산 비용을 크게 낮추면서도 PAC 학습 보장을 유지하는 두 알고리즘, RTDP‑RMAX와 RTDP‑IE를 제안한다. 이론적 분석과 실험을 통해 경험 효율성은 크게 손상되지 않으며, 대규모 MDP에서도 실용적인 성능을 보임을 확인한다.

상세 분석

RMAX와 MBIE는 모델 기반 강화학습에서 경험 효율성이 뛰어나지만, 매 단계마다 전체 모델을 풀어 최적 정책을 재계산해야 하는 구조적 한계로 인해 시간 복잡도가 급격히 증가한다. 저자들은 이러한 병목을 해소하기 위해 실시간 동적 계획(RTDP)을 도입한다. RTDP는 현재 상태에서 시작해 가치 업데이트를 진행하되, 이미 충분히 탐색된 영역은 건너뛰고, 불확실성이 높은 상태·행동 쌍에만 집중적으로 업데이트한다는 점에서 전통적인 가치 반복과 차별화된다. 이를 RMAX와 MBIE에 각각 결합한 RTDP‑RMAX와 RTDP‑IE는 모델 업데이트와 가치 추정 과정을 병렬화하고, 필요 최소한의 Bellman 백업만 수행하도록 설계되었다.

이론적 측면에서 저자들은 ‘일반적인 PAC 프레임워크’를 확장해 두 알고리즘이 ε‑근사 최적 정책을 1‑δ 확률로 찾는 데 필요한 샘플 복잡도는 기존 RMAX·MBIE와 동일하게 Õ( |S||A| / ε³ ) 수준임을 증명한다. 동시에 계산 복잡도는 매 타임스텝마다 전체 상태공간을 순회하지 않으므로, 최악의 경우에도 Õ( |S|·|A|·H ) 이하로 제한된다(여기서 H는 탐색 깊이). 특히, 탐색 깊이를 적절히 조절하면 경험 요구량과 계산 요구량 사이의 트레이드오프를 정량적으로 제어할 수 있다.

실험에서는 격자 세계, 랜덤 MDP, 그리고 Atari와 같은 고차원 환경을 대상으로 기존 RMAX·MBIE와 비교하였다. 결과는 RTDP‑RMAX와 RTDP‑IE가 학습 초기 단계에서 약 10배~30배 빠른 실행 시간을 보이며, 최종 수렴 정책의 품질은 차이가 미미함을 보여준다. 또한, 탐색 깊이 파라미터를 작게 설정하면 계산량은 크게 감소하지만, ε‑근사 보장에 필요한 샘플 수가 약간 증가하는 현상이 관찰되었다. 이는 논문이 제시한 ‘경험‑계산량 균형’ 개념을 실증적으로 뒷받침한다.

전반적으로 이 연구는 모델 기반 강화학습의 실용성을 크게 확대할 수 있는 설계 원칙을 제시한다. RTDP와 같은 제한적 가치 업데이트 기법을 기존 이론적 보장과 결합함으로써, 대규모 MDP에서도 경험 효율성을 유지하면서도 실시간에 가까운 학습 속도를 달성한다는 점이 가장 큰 공헌이다.