확산 브리지 비평가를 활용한 분포 강화 학습
초록
본 논문은 기존 확산 기반 정책에만 초점을 맞춘 강화학습 연구의 한계를 넘어, 확산 브리지 모델을 비평가(critic)로 도입한 새로운 분포 강화학습 프레임워크인 DBC(Distributional Reinforcement Learning with Diffusion Bridge Critics)를 제안한다. DBC는 Q‑값의 역누적분포함수(inverse CDF)를 직접 학습함으로써 값 분포의 다중모달성을 유지하고, 베셀만 연산에 의해 발생하는 가우시안 붕괴 현상을 방지한다. 또한 이산화 오류를 보정하는 적분 일관(discretization‑consistent) 기법을 도입해 값 추정의 편향을 최소화한다. MuJoCo 로봇 제어 벤치마크 실험에서 기존 분포 비평가 대비 일관된 성능 향상을 입증한다.
상세 분석
본 연구는 강화학습에서 비평가의 정확성이 정책 최적화에 미치는 영향을 강조하며, 기존 확산 정책 기반 방법이 비평가 모델을 간과한 점을 비판한다. 저자들은 “가우시안 붕괴(Gaussian Degradation)” 현상을 정리하고, 베셀만 백업 연산이 반복될수록 확산 비평가가 중심극한정리의 영향으로 점차 가우시안 형태로 수렴한다는 이론적 증명을 제시한다(정리 4.1). 이를 해결하기 위해 확산 브리지( diffusion bridge )라는 h‑transform 기반의 확률 과정 모델을 비평가에 적용한다. 핵심 아이디어는 Q‑값 분포를 직접 모델링하는 대신, 역누적분포함수(F⁻¹) = inverse CDF를 파라미터화하여 양자화 수준 τ와 연계시킨다. 이렇게 하면 양자화 손실 없이 연속적인 확률 수준을 학습할 수 있으며, 베셀만 연산 중에도 다중모달 구조가 유지된다.
학습 과정에서는 온라인 네트워크 fθ가 중간 상태 zₜ와 시간 t, 양자화 레벨 τ, 상태‑행동 (s,a)를 입력받아 최종 데이터 엔드포인트 ŷ = fθ(zₜ, t, τ, s, a)를 예측한다. 목표 네트워크는 베셀만 연산을 통해 얻은 반환 파티클 {z_target}을 생성하고, 이를 r + γ·z_target 형태의 타깃 샘플 Y로 변환한다. 손실은 두 부분으로 구성된다. 첫 번째는 기존 QR‑DQN에서 차용한 양자화 손실(LQR)이며, 두 번째는 “앵커 손실(anchor loss)”으로, 학습 초기의 불안정성을 완화하고 수렴 속도를 높인다.
또한, 확산 브리지를 이산화할 때 발생하는 편향을 보정하기 위해 적분 일관(discretization‑consistent) 기법을 도입한다. 이는 연속 시간 최적 제어 문제의 해를 근사하는 과정에서 발생하는 오차를 정확히 적분 형태로 보정함으로써, 정책 업데이트 시 값 추정이 과소·과대 평가되지 않도록 한다. 실험에서는 DBC를 SAC와 TD3에 플러그‑인 형태로 결합했으며, MuJoCo의 Hopper, Walker2d, HalfCheetah 등 6개 연속 제어 환경에서 기존 C51, QR‑DQN, IQN, DSA‑C, TQC 등과 비교했을 때 평균 누적 보상이 3~12 % 상승하는 결과를 보였다.
이러한 설계는 (1) 가우시안 붕괴 문제를 근본적으로 해결, (2) 연속적인 확률 레벨을 직접 모델링해 표현력을 극대화, (3) 이산화 오류를 정량적으로 보정함으로써 정책 학습의 안정성을 확보한다는 세 가지 주요 기여를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기