가우시안 프로세스로 구현한 샘플 효율적 RMAX 탐색 강화학습

초록

연속적이고 결정론적인 환경에서 모델 기반 온라인 강화학습을 수행하기 위해, 저자는 가우시안 프로세스(GP)를 동적 모델 학습에 적용하고, GP의 예측 불확실성을 이용해 “불확실성에 대한 낙관주의(optimism in the face of uncertainty)” 원칙을 구현한다. 모델 학습과 플래닝을 명확히 분리함으로써 샘플 복잡도를 크게 낮추고, 베이지안 하이퍼파라미터 자동 선택을 통해 적은 데이터만으로도 정확한 모델을 구축한다. 제안 방법은 RMAX‑유사 탐색 전략과 결합되어 네 개의 표준 벤치마크에서 높은 샘플 효율성을 보인다.

상세 분석

이 논문은 연속 상태·액션 공간을 갖는 결정론적 전이 환경을 전제로, 샘플 효율성을 극대화하기 위한 모델 기반 강화학습 프레임워크를 제시한다. 핵심 아이디어는 모델 학습 단계와 플래닝 단계의 역할을 명확히 구분하는 것이다. 모델 학습에서는 가우시안 프로세스 회귀(GP)를 사용해 상태‑액션 쌍에 대한 전이 함수를 추정한다. GP는 베이지안 관점에서 사후 분포를 제공하므로, 평균 예측값과 함께 예측 분산(불확실성)도 얻을 수 있다. 이 불확실성 정보는 RMAX‑유사 탐색 정책에 직접 활용된다. 구체적으로, 에이전트는 현재 모델이 충분히 확신을 갖지 못하는(state‑action) 영역에 대해 “낙관적인” 보상 보정을 부여함으로써, 해당 영역을 우선적으로 탐색하도록 유도한다. 이는 전통적인 RMAX가 이산 상태 공간에서 방문 횟수 기반으로 보상을 상향 조정하던 방식을 연속 공간에 자연스럽게 확장한 형태이다.

GP의 장점은 두드러진 일반화 능력과 자동 하이퍼파라미터 튜닝이다. 논문에서는 로그 가능도 최대화와 같은 베이지안 최적화를 통해 커널 파라미터와 노이즈 수준을 데이터에 맞게 자동 조정한다. 결과적으로, 초기 몇 개의 샘플만으로도 복잡한 비선형 전이 함수를 높은 정확도로 근사할 수 있다. 또한, GP는 샘플이 추가될수록 모델 복잡도가 자동으로 증가하거나 감소하는 자기 조절 메커니즘을 내재하고 있어, 과적합 위험을 최소화한다.

플래닝 단계에서는 학습된 GP 모델을 이용해 가치 함수 또는 정책을 계산한다. 여기서는 모델 기반 트리 탐색이나 샘플 기반 동적 프로그래밍을 적용할 수 있는데, 논문에서는 특히 값 반복(value iteration)과 같은 DP 기법을 사용한다. 중요한 점은 플래닝 과정에서 추가적인 환경 샘플이 필요 없다는 것이다. 즉, 모델이 충분히 신뢰할 수 있는 영역에서는 정확한 가치 추정이 가능하고, 불확실한 영역에서는 앞서 언급한 낙관적 보상 보정을 통해 탐색을 촉진한다.

계산 복잡도 측면에서 GP는 일반적으로 O(N³) 비용을 요구한다(N은 현재까지 관측된 샘플 수). 이를 완화하기 위해 저자는 희소 GP(sparse GP) 혹은 제한된 메모리 윈도우 방식을 적용할 수 있음을 언급한다. 실험에서는 비교적 작은 샘플 수(수백 개)만으로도 충분히 좋은 성능을 보였으며, 이는 실제 로봇 제어나 온라인 학습 시 중요한 실시간 제약을 만족한다는 점에서 의미가 크다.

마지막으로, 네 개의 표준 연속 제어 벤치마크(예: MountainCarContinuous, CartPole, Acrobot, Pendulum)에서 기존 샘플 효율적 알고리즘(PILCO, DDPG, TRPO 등)과 비교했을 때, 제안 방법은 동일하거나 더 적은 샘플로 목표 성능에 도달했다. 특히 초기 탐색 단계에서의 빠른 수렴과 안정적인 정책 학습이 두드러졌다. 이러한 결과는 GP 기반 모델 학습과 RMAX‑유사 낙관적 탐색이 결합될 때, 연속 환경에서도 이론적 샘플 복잡도 보장을 실용적으로 구현할 수 있음을 실증한다.