딥 가우시안 프로세스를 위한 확산 브리지 변분 추론
초록
딥 가우시안 프로세스(DGP)의 복잡한 사후 분포를 효율적으로 추정하기 위해, 기존 DDVI가 사용하던 고정된 가우시안 초기화를 데이터에 의존적인 학습 가능한 초기 분포로 교체한다. 이 초기 분포는 유도된 네트워크로 인덕팅 포인트의 위치 Z(l) 에 기반해 amortization되며, Doob‑bridge 변환을 통해 역확산 SDE를 정의한다. 제안된 DBVI는 ELBO를 Girsanov 정리와 결합해 닫힌 형태로 도출하고, 회귀·분류·이미지 복원 실험에서 수렴 속도와 예측 정확도 모두에서 기존 DDVI 및 다른 변분 방법을 능가한다.
상세 분석
딥 가우시안 프로세스(DGP)는 여러 층의 GP를 순차적으로 결합해 비선형·비정규화된 함수 공간을 제공하지만, 층간 의존성과 대규모 인덕팅 변수 때문에 베이지안 사후 추정이 매우 어려운 문제다. 전통적인 스파스 변분 방법은 보통 인덕팅 변수 U 에 대해 평균‑공분산이 고정된 가우시안 근사를 사용해 표현력이 제한적이다. 최근 등장한 Denoising Diffusion Variational Inference(DDVI)는 역시간 확산 SDE를 이용해 복잡한 사후를 유연하게 모델링했지만, 초기 분포 U₀ ∼ N(0,σ²I) 가 사후와 크게 차이 나는 점이 큰 단점이다. 이로 인해 역확산 경로가 길어지고, 샘플링 변동성이 커지며, 학습이 느려진다.
DBVI는 이러한 한계를 두 가지 축에서 해소한다. 첫째, 초기 분포를 pθ₀(U₀|x)=N(μθ(x),σ²I) 와 같이 데이터‑조건부 평균 μθ(x) 를 신경망으로 학습한다. 네트워크는 각 층의 인덕팅 입력 Z(l) 을 입력으로 받아, 고차원 원본 데이터 대신 구조화된 저차원 요약에 기반해 amortization한다. 둘째, Doob‑h‑transform을 적용해 초기 조건을 포함한 ‘브리지’ 확산을 정의한다. 전방 브리지는 추가 드리프트 g(t)² h(Uₜ,t,U₀) 를 갖고, 역시간 브리지는 조건부 스코어 s_cond = s + h 를 사용한다. 이 변형은 사후와 초기 분포 사이의 KL 격차를 이론적으로 감소시켜, 역확산 경로를 크게 단축한다.
수학적으로는 Proposition 1·2·3을 통해 브리지 과정의 평균·분산이 ODE로 닫힌 형태로 구해지고, 이를 기반으로 Girsanov 정리를 활용한 ELBO를 유도한다. ELBO는 −log pθ₀(U₁) + 데이터 로그우도 − ∫ g(t)⁻²‖Uₜ−mₜ + s_cond‖² dt − KL(N(μθ,σ²I)‖N(m₁,κ₁I)) 와 같은 형태이며, 각 항목이 미니배치 수준에서 효율적으로 계산된다.
실험에서는 회귀(예: UCI), 이미지 복원(예: MNIST·CIFAR‑10) 및 다중 클래스 분류에서 DBVI가 DDVI 대비 1.5~2배 빠른 수렴과 1–3% 정도의 정확도 향상을 보였다. 특히 깊은 층(L≥4)에서 인덕팅 변수의 다중모달 분포를 잘 포착해, 기존 스파스 변분 방법이 과소평가하던 불확실성을 정확히 추정한다.
전체적으로 DBVI는 (1) 데이터‑조건부 초기화로 사후와 초기 분포를 맞춤, (2) Doob‑bridge를 통한 이론적 정당성 확보, (3) 인덕팅 입력 기반의 효율적 amortization 설계라는 세 축을 결합해 DGP 변분 추론의 효율성과 정확성을 크게 향상시킨다. 향후 연구에서는 더 복잡한 비선형 h‑transform 설계, 다중 모드 U₀ 분포 학습, 그리고 비정규화된 likelihood에 대한 확장이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기