연속 환경에서의 임파워먼트 확장과 탐색적 모델 학습

초록

본 논문은 연속적인 벡터 상태 공간과 미지의 전이 확률을 가진 에이전트‑환경 시스템에 대해 임파워먼트를 일반화한다. 몬테카를로 샘플링과 가우시안 프로세스 회귀를 이용해 연속 상태의 임파워먼트를 추정하고, 이를 내재적 보상으로 활용해 탐색 및 온라인 모델 학습을 수행한다. 실험 결과는 기존 이산형 임파워먼트와 비교해 동일하거나 우수한 행동 선택과 효율적인 탐색을 보여준다.

상세 분석

임파워먼트는 에이전트가 자신의 행동을 통해 환경을 얼마나 제어하고, 그 결과를 센서로 감지할 수 있는지를 정량화하는 정보이론적 측도이다. 기존 연구는 주로 이산형 상태와 알려진 전이 확률을 전제로 했으며, 차원 수가 작은 경우에만 적용 가능했다. 본 논문은 이러한 제한을 두 가지 축에서 극복한다. 첫째, 연속적인 벡터 상태 공간을 다루기 위해 상태‑액션 쌍에 대한 미래 상태 분포를 Monte‑Carlo 샘플링으로 근사한다. 이때 샘플 수를 충분히 늘리면 확률밀도 함수의 근사 정확도가 보장되며, 샘플링 비용은 병렬화가 용이해 실시간 적용이 가능하다. 둘째, 전이 모델이 사전에 알려지지 않은 경우를 위해 Gaussian Process Regression(GPR)을 채택한다. GPR은 비선형 함수 근사에 강력하며, 예측 분포를 제공하므로 불확실성을 정량화할 수 있다. 특히 논문에서는 “iterated forecasting” 기법을 도입해 한 단계 예측을 반복 적용함으로써 다시간 단계 전이 예측을 수행한다. 이 과정에서 얻어진 예측 평균과 공분산은 임파워먼트 계산에 직접 사용되어, 정보 이득을 최대화하는 행동을 선택하도록 한다.

임파워먼트의 핵심은 행동 시퀀스 (a_{1:T})가 만들어낼 미래 상태 분포 (p(s_T|s_0,a_{1:T}))와 센서 관측 (p(o_T|s_T)) 사이의 상호 정보량 (I(A;O))를 최대화하는 것이다. 연속 경우에는 이 상호 정보량을 직접 계산하기 어렵기 때문에, 논문은 샘플링된 상태‑액션 궤적을 이용해 경험적 엔트로피와 조건부 엔트로피를 추정한다. 구체적으로, 각 행동 후보에 대해 (N)개의 샘플을 생성하고, 샘플 집합의 커널 밀도 추정(KDE)을 통해 확률밀도 함수를 근사한다. 그런 다음, (\hat{I}=H(\hat{O})-H(\hat{O}|A)) 형태로 임파워먼트를 계산한다. 여기서 (H)는 엔트로피이며, KDE 기반 추정은 연속 변수에 대해 부드러운 확률분포를 제공한다.

실험에서는 대표적인 연속 제어 과제인 Cart‑Pole, Mountain‑Car, Acrobot, 그리고 2‑D 로봇 팔 작업을 대상으로 임파워먼트 기반 정책을 평가한다. 각 과제에서 에이전트는 초기 모델이 없으며, GPR을 통해 전이 함수를 순차적으로 학습한다. 임파워먼트는 탐색 단계에서 높은 불확실성을 가진 영역을 자동으로 선호하게 되며, 이는 전통적인 ε‑greedy나 Boltzmann 탐색보다 더 효율적인 데이터 수집을 가능하게 한다. 또한, 학습이 진행될수록 모델 정확도가 향상되어 임파워먼트 값이 실제 제어 가능성과 관측 가능성을 더 정확히 반영한다. 결과적으로, 임파워먼트 기반 에이전트는 목표 상태에 도달하는 성공률과 학습 속도 모두에서 기존 베이스라인을 능가한다.

이 논문이 제시하는 두 가지 기법—Monte‑Carlo 기반 연속 임파워먼트 추정과 GPR을 이용한 온라인 전이 모델 학습—은 서로 보완적이다. 전자는 연속 상태 공간에서 정보량을 정량화하는 방법을 제공하고, 후자는 모델 불확실성을 최소화하면서 탐색 효율을 높인다. 따라서 임파워먼트는 외부 보상이 없는 상황에서도 자율적인 목표 설정과 행동 선택을 가능하게 하는 강력한 내재적 동기 메커니즘으로 작동한다. 향후 연구에서는 고차원 이미지 기반 관측, 다에이전트 상호작용, 그리고 실시간 로봇 시스템에의 적용을 통해 이 접근법의 확장성을 검증할 필요가 있다.