밀도 모델 기반 가짜 카운트로 탐험과 내재 동기 통합

본 논문은 비표형 강화학습에서 탐험을 위한 기존 카운트 기반 방법과 내재 동기 방식의 공통 본질을 밝히고, 임의의 밀도 모델로부터 ‘가짜 카운트(pseudo‑count)’를 유도하는 알고리즘을 제안한다. 가짜 카운트는 정보이득과 예측 이득 사이의 관계를 통해 탐험 보너스로 활용될 수 있음을 이론적으로 증명하고, Atari 2600 게임, 특히 Montezuma’s Revenge에서 원시 픽셀 입력으로부터 얻은 가짜 카운트를 보상에 적용해 기존 …

저자: Marc G. Bellemare, Sriram Srinivasan, Georg Ostrovski

밀도 모델 기반 가짜 카운트로 탐험과 내재 동기 통합
본 논문은 강화학습 에이전트가 환경에 대해 가지는 불확실성을 정량화하고, 이를 관측 공간 전반에 일반화하는 방법을 탐구한다. 전통적인 카운트 기반 탐험은 방문 횟수 N(x,a) 를 직접 사용해 보너스를 부여함으로써 탐험을 유도하지만, 상태가 거대하거나 연속적인 경우에는 대부분의 상태가 한 번도 방문되지 않아 카운트가 의미를 상실한다. 반면 내재 동기(intrinsic motivation) 접근법은 예측 오차, 학습 진보, 정보이득 등 ‘놀라움(surprise)’을 측정해 보상으로 활용한다. 그러나 이러한 방법은 이론적 근거가 부족하고, 실제 적용 시에도 제한적인 성능을 보이는 경우가 많다. 저자들은 두 접근법이 사실상 동일한 원리를 공유한다는 점을 수학적으로 증명한다. 핵심은 임의의 확률 밀도 모델 ρ 를 이용해 상태 x 에 대한 현재 예측 확률 ρₙ(x) 와, x 를 한 번 더 관측했을 때의 재코딩 확률 ρₙ′(x) 를 비교하는 것이다. 두 확률 사이에 다음과 같은 선형 관계를 강제한다.  ρₙ(x) = ˆNₙ(x) / ˆn , ρₙ′(x) = (ˆNₙ(x)+1) / (ˆn+1) 여기서 ˆNₙ(x) 는 ‘가짜 카운트(pseudo‑count)’, ˆn 은 전체 가짜 카운트의 합이다. 이 식을 풀면  ˆNₙ(x) = ρₙ(x)(1‑ρₙ′(x)) / (ρₙ′(x)‑ρₙ(x)) 라는 닫힌 형태가 얻어진다. ρ 가 ‘학습‑양성(learning‑positive)’ 즉, 새로운 관측이 기존 확률을 감소시키는 경우에만 ˆNₙ(x)≥0 이 보장된다. 이 정의는 기존 방문 횟수와 동일한 역할을 하면서, 밀도 모델이 상태 간 일반화를 수행하면 그 일반화 정도가 카운트에 반영된다는 중요한 특성을 가진다. 다음으로 저자들은 가짜 카운트와 정보이득(Information Gain, IG) 및 예측 이득(Prediction Gain, PG) 사이의 관계를 정량화한다. 정보이득은 사후 분포와 사전 분포 사이의 KL 발산으로 정의되며, 실제 복잡한 밀도 모델에서는 계산이 어려운 반면, 예측 이득은  PGₙ(x) = log ρₙ′(x) – log ρₙ(x) 로 간단히 구할 수 있다. 이때 ρ 가 학습‑양성이면 PGₙ(x)≥0 이며, 가짜 카운트와는  ˆNₙ(x) ≈ e^{PGₙ(x)} – 1 라는 근사 관계가 성립한다. 정리 1에 따르면  IGₙ(x) ≤ PGₙ(x) ≤ ˆNₙ(x) – 1 이며, PGₙ(x) ≤ ˆNₙ(x) – ½ 도 성립한다. 따라서 ˆNₙ(x)‑½ 와 같은 형태의 보너스를 사용하면, 정보이득 기반 보너스보다 적어도 동일하거나 더 탐험적인 행동을 유도한다는 이론적 근거가 확보된다. 또한 Kolter‑Ng(2009)의 부정적 결과와 결합해, 단순 IG·PG 보너스는 최적 탐험을 보장하지 못하지만, 가짜 카운트 기반 보너스는 탭ular 경우와 동일한 수렴 보장을 유지한다는 점을 강조한다. 실험 부분에서는 Atari 2600 게임군을 대상으로 가짜 카운트를 실제로 적용한다. 저자들은 CTS(Context‑Tree Switching) 모델을 사용해 원시 픽셀을 압축하고, 압축 확률을 통해 가짜 카운트를 추정한다. Freeway 게임에서는 가짜 카운트가 처음 관측 시 거의 0에 가깝고, 이후 관측이 누적될수록 선형적으로 증가하며, 비정상적인 정책(예: 일정 구간에만 움직이는 정책)에도 강인함을 보였다. 가장 중요한 실험은 탐험이 어려운 Montezuma’s Revenge 에서 수행되었다. 기존의 ε‑greedy, 정보이득 기반 보너스, 혹은 전통적인 카운트 기반 방법은 초기 단계에서 거의 탐험을 하지 못했지만, 가짜 카운트 기반 보너스를 적용한 에이전트는 첫 번째 레벨의 여러 방을 빠르게 탐색하고, 기존 최고점보다 현저히 높은 점수를 달성했다. 이는 가짜 카운트가 원시 이미지 수준에서도 의미 있는 ‘새로움’ 지표를 제공함을 실증한다. 마지막으로 저자들은 가짜 카운트의 asymptotic 특성을 분석한다. 가정 1에 따라 ρₙ(x) 가 실제 경험 분포 µ(x) 에 수렴하고, 학습 속도 ˙r(x) 가 양수이면, 가짜 카운트와 실제 방문 횟수 Nₙ(x) 의 비율은  limₙ ˆNₙ(x)/Nₙ(x) = r(x)·˙r(x) /

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기