인과관계 기반 확산 정책으로 강화학습 성능 극대화
초록
CausalGDP는 오프라인 데이터로 기본 확산 정책과 인과 동역학 모델을 동시에 학습하고, 실시간 상호작용 중에 추정된 인과 정보를 가이드 신호로 활용해 확산 과정이 실제 보상을 유발하는 행동 성분을 우선적으로 생성하도록 설계한 프레임워크이다. 기존의 보상‑기반 가이드와 달리 인과관계를 명시적으로 고려함으로써 고차원 제어 과제에서 일관된 성능 향상을 보인다.
상세 분석
본 논문은 확산 기반 정책이 고차원 행동 공간을 모델링하는 데 강점을 가지지만, 순수히 통계적 연관성에 의존해 최적 행동을 탐색한다는 한계를 지적한다. 이를 극복하기 위해 저자는 두 단계(오프라인 학습, 실시간 학습)로 구성된 CausalGDP 프레임워크를 제안한다.
오프라인 단계에서는 기존의 확산 정책 학습과 동시에 인과 동역학 모델(Causal Dynamical Model, CDM)을 학습한다. CDM은 상태‑행동‑보상 삼중항 사이의 구조적 인과 관계를 추정하기 위해 SCM(Structural Causal Model) 기반의 그래프 구조 학습 혹은 변분 베이지안 방법을 활용한다. 이렇게 얻어진 초기 인과 그래프는 각 행동 차원(a_i)이 미래 상태와 보상에 미치는 직접·간접 효과를 정량화한다.
실시간 단계에서는 에이전트가 환경과 상호작용하면서 새로운 트랜지션 데이터를 지속적으로 수집한다. 저자는 온라인 인과 추정 알고리즘(예: 온라인 구조 학습, 도-계산 기반 개입)을 도입해 CDM을 갱신하고, 최신 인과 정보를 가이드 신호 g_t 으로 변환한다. 구체적으로, 각 diffusion step k 에서의 노이즈 예측 ε_θ 에 ∇_{a_k} 인과 영향 C(a_k, s_t) 를 더함으로써, “인과적으로 중요한” 행동 차원이 더 크게 보정된다. 이는 기존 Q‑value 기반 가이드가 보상 기대치만을 반영하는 데 비해, 행동이 실제로 미래 상태 변화를 일으키는 메커니즘을 직접 활용한다는 점에서 차별적이다.
이론적 분석에서는 인과 가이드가 확산 과정의 스코어 함수 s_t(a|s) 에 추가적인 편향 Δs_t 을 제공함을 보이며, 편향된 스코어가 목표 정책 π* 에 대한 KL‑divergence를 감소시키는 충분조건을 제시한다. 또한, 인과 그래프가 정확히 추정될 경우, 정책 업데이트가 불필요한 행동 차원을 무시하고 효율적인 탐색을 수행함을 증명한다.
실험에서는 MuJoCo와 DeepMind Control Suite의 고차원 연속 제어 태스크를 대상으로, 최신 확산 기반 정책(Offline‑Diffusion, Diffusion‑TrustRegion, Efficient‑Diffusion) 및 오프라인 RL(CQL, IQL)과 비교하였다. CausalGDP는 평균 7~12%의 누적 보상 향상을 기록했으며, 특히 행동 차원이 30 이상인 복잡 환경에서 학습 수렴 속도가 30% 가량 가속화되었다. Ablation study를 통해 인과 가이드 없이(순수 보상 가이드)와 인과 그래프 업데이트 주기를 변형했을 때 성능 저하가 명확히 나타났으며, 이는 인과 정보가 정책 최적화에 실질적인 기여를 함을 뒷받침한다.
한계점으로는 인과 그래프 추정 비용이 고차원 상태‑행동 공간에서 여전히 높은 편이며, 잘못된 인과 구조가 가이드에 부정적 영향을 미칠 가능성이 있다. 향후 연구에서는 구조적 불확실성을 베이지안 방식으로 모델링하고, 멀티‑에이전트 혹은 비정상적 전이 환경에서 인과 가이드를 확장하는 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기