제한된 잠재 행동 정책을 이용한 모델 기반 오프라인 강화학습
초록
**
C‑LAP은 관측‑행동의 결합 분포를 생성 모델로 학습하고, 잠재 행동 공간에서 정책을 제약 최적화함으로써 데이터 분포를 벗어나는 행동을 방지한다. 이를 통해 불확실성 기반 보정 없이 가치 과대평가 문제를 완화하고, 학습 효율을 크게 높인다. D4RL·V‑D4RL 벤치마크에서 특히 시각 관측 환경에서 기존 최첨단 방법과 경쟁하거나 우수한 성능을 보인다.
**
상세 분석
**
본 논문은 오프라인 강화학습에서 가장 심각한 문제 중 하나인 분포 이동과 가치 과대평가를 새로운 관점으로 접근한다. 기존 모델 기반 방법들은 동적 모델을 학습한 뒤, 모델이 생성한 가상 트래젝터리를 이용해 정책을 업데이트한다. 그러나 데이터가 제한된 상황에서는 모델 오류가 누적되어 오프‑디스트리뷰션 상태·행동에 대해 과도한 가치 추정이 발생한다. 이를 방지하기 위해 대부분의 연구가 **불확실성 추정(ensemble)**을 도입해 Bellman 업데이트에 보정 항을 추가한다.
C‑LAP은 이러한 보정 메커니즘을 배제하고, 관측‑행동의 공동 확률분포 p(o, a) 를 직접 모델링한다는 점에서 차별화된다. 구체적으로, 저자들은 잠재 상태 sₜ와 잠재 행동 uₜ를 도입한 재귀 잠재 행동 상태‑공간 모델(RL‑SMM) 을 설계한다. 모델은 다음 네 가지 확률 요소로 구성된다: (1) 잠재 상태 사전 p(sₜ|sₜ₋₁, uₜ₋₁), (2) 잠재 행동 사전 p(uₜ|sₜ), (3) 관측 디코더 p(oₜ|sₜ), (4) 행동 디코더 p(aₜ|sₜ, uₜ). ELBO 최적화를 통해 이 복합 모델을 학습하고, 보상·종료 신호도 함께 예측하도록 확장한다.
핵심 아이디어는 정책을 잠재 행동 공간에서 직접 최적화하고, 잠재 행동 사전의 지원(support) 안에 머무르게 제약한다는 것이다. 잠재 행동 사전은 정규분포 N(μₜ, σₜ) 로 가정하고, 정책 πψ(uₜ|sₜ) 를
댓글 및 학술 토론
Loading comments...
의견 남기기