변분 가우시안 프로세스로 보는 복잡한 사후분포 근사
본 논문은 베이지안 비모수적 변분 가족인 변분 가우시안 프로세스(VGP)를 제안한다. VGP는 단순한 잠재 입력을 무작위 비선형 매핑으로 변형하고, 그 매핑을 가우시안 프로세스로 모델링함으로써 복잡한 사후분포를 유연하게 근사한다. 저자는 VGP가 모든 연속 사후분포를 근사할 수 있음을 보이는 보편 근사 정리를 증명하고, 자동 인코더 영감을 받은 변분 목표와 블랙박스 최적화 알고리즘을 제시한다. 실험에서는 딥 라텐트 가우시안 모델과 DRAW에 적…
저자: Dustin Tran, Rajesh Ranganath, David M. Blei
본 논문은 베이지안 비모수적 변분 가족인 변분 가우시안 프로세스(Variational Gaussian Process, VGP)를 제안하고, 이를 통해 복잡한 사후분포를 효율적으로 근사하는 방법을 제시한다.
1. **배경 및 동기**
변분 추론은 사후분포와 가장 가까운 변분 분포 q(z;λ) 를 찾는 최적화 문제로, 전통적으로 평균장(mean‑field) 가족을 사용한다. 평균장은 계산 효율성이 높지만, 각 잠재 변수 간 독립성 가정으로 인해 복잡한 의존 구조를 포착하지 못한다. 최근에는 신경망을 이용한 풍부한 변분 가족이 제안되었지만, 여전히 비선형 의존성을 충분히 모델링하기엔 한계가 있다. 이에 저자들은 변분 가족 자체를 베이지안 비모수 모델로 확장하고, 가우시안 프로세스(GP)를 이용해 무한 차원의 함수 공간을 활용하는 VGP를 고안하였다.
2. **VGP의 정의와 구조**
VGP는 다음 세 단계로 구성된다.
- **잠재 입력 샘플링**: ξ ∼ N(0,I) 에서 c 차원의 입력을 샘플링한다.
- **비선형 매핑**: GP f ∼ Q(f | D) 를 통해 ξ 를 d‑차원 출력 f(ξ) 로 변환한다. 여기서 D = {(s_n, t_n)} 는 변분 데이터이며, GP의 커널 파라미터 θ 와 함께 학습된다.
- **평균장 샘플링**: 변환된 출력 λ_i = f_i(ξ) 를 평균장 분포 q(z_i | λ_i) 의 파라미터로 사용해 최종 잠재 변수 z 를 샘플링한다.
이 과정은 식 (5)와 같이 무한 개의 평균장 분포를 앙상블하는 계층적 변분 모델을 형성한다. 동일한 ξ에 대해 여러 차원의 f_i(ξ) 가 동시에 평가되므로, 잠재 변수들 사이에 자연스러운 상관관계가 부여된다.
3. **보편 근사 정리**
저자는 VGP가 모든 연속 사후분포를 임의의 작은 KL 발산으로 근사할 수 있음을 정리 1(Universal Approximation)에서 증명한다. 핵심은 역누적분포 P^{-1} 와 표준 정규 CDF Φ 를 이용해 이상적인 변환 f* 를 구성하고, GP가 변분 데이터와 커널을 조정함으로써 f* 에 수렴하도록 학습한다는 점이다. 따라서 VGP는 이론적으로 완전한 표현력을 가진다.
4. **변분 목표와 블랙박스 학습**
기존 ELBO는 log q(z) 항이 비해석적이므로, 저자는 자동 인코더 구조를 차용한 새로운 변분 목표 eL(θ,φ) 를 제안한다. 이 목표는 다음 세 부분으로 나뉜다.
- 기대 재구성 로그 E_q
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기