고정형 변분 사후 근사와 확률적 선형 회귀
초록
본 논문은 베이지안 사후분포를 지수족 혹은 그 혼합 형태로 근사하기 위한 일반적인 알고리즘을 제시한다. KL 발산을 최소화하는 목표함수를 확률적 선형 회귀 형태로 변환해 샘플링 기반 추정으로 효율적으로 최적화한다. 닫힌 형태로 주어지는 어떠한 사후분포에도 적용 가능하며, 실험을 통해 높은 정확도와 빠른 수렴을 확인한다.
상세 분석
이 논문은 변분 추론(Variational Inference, VI)의 핵심 과제인 ‘근사분포 선택’과 ‘최적화 방법’ 사이의 트레이드오프를 새로운 관점에서 해결한다. 기존의 고정형 변분 방법은 근사분포를 미리 정해놓고, 그 파라미터를 ELBO(Evidence Lower BOund)를 최대화하는 방식으로 업데이트한다. 그러나 ELBO를 직접 계산하려면 사후분포의 정규화 상수가 필요하거나, 복잡한 기대값을 수치적으로 추정해야 하는데, 이는 고차원 문제에서 계산 비용을 급격히 증가시킨다. 저자들은 이러한 문제를 회피하기 위해 KL 발산 최소화 문제를 ‘스테이셔너리 조건’ 형태로 재구성한다. 구체적으로, 근사분포 q(θ;λ)와 목표 사후분포 p(θ|y) 사이의 KL 발산을 λ에 대해 미분하고, 그 결과를 0으로 놓는 조건을 얻는다. 이 조건은 기대값 형태의 방정식으로 나타나며, 기대값 안에 p(θ|y)와 q(θ;λ)의 로그비율이 들어간다.
핵심 아이디어는 이 기대값을 ‘확률적 선형 회귀(Stochastic Linear Regression)’ 형태로 변환하는 것이다. 즉, q의 충분통계 T(θ)와 로그비율의 곱을 선형 모델의 종속 변수로 보고, T(θ)를 독립 변수로 하는 회귀 문제로 본다. 이렇게 하면 샘플링을 통해 얻은 (θ, T(θ)) 쌍만으로 회귀 계수를 추정할 수 있다. 회귀 계수는 바로 λ의 업데이트 식과 일치하므로, 반복적으로 샘플을 생성하고 회귀를 수행하면 λ가 KL 최소화 방향으로 수렴한다.
이 접근법의 장점은 다음과 같다. 첫째, 사후분포의 정규화 상수를 전혀 필요로 하지 않는다. KL 발산의 정의상 정규화 상수는 λ에 독립적이므로, 샘플링 기반 추정에서 자동으로 사라진다. 둘째, 기대값을 선형 회귀 형태로 풀어내므로, 기존의 Monte‑Carlo VI에서 흔히 발생하는 고분산 문제를 완화한다. 회귀는 최소제곱 해를 이용해 폐쇄형으로 구할 수 있어, 학습률(step size) 조정이 불필요하거나 매우 간단해진다. 셋째, 근사분포를 지수족 혹은 그 혼합 형태로 자유롭게 선택할 수 있다. 지수족은 충분통계가 유한 차원이라는 특성을 가지므로, 회귀 설계가 직관적이며, 혼합 모델을 사용하면 근사의 표현력을 임의로 높일 수 있다.
이론적 측면에서 저자들은 수렴성을 보장하기 위해 두 가지 조건을 제시한다. 첫째, 충분통계 T(θ)가 p와 q 모두에 대해 2차 적분가능해야 하며, 둘째, 회귀 설계 행렬이 충분히 풍부해야 한다(즉, 샘플 수가 파라미터 차원보다 크게 확보돼야 함). 이러한 가정 하에, 알고리즘은 KL 발산을 감소시키는 단조 수열을 생성하고, 결국 지역 최소점에 수렴한다는 정리를 증명한다.
실험에서는 베타-베르누이 모델, 로지스틱 회귀, 그리고 복잡한 베이지안 신경망 등 다양한 사례에 적용하였다. 특히 고차원 파라미터 공간을 가진 신경망에서는 기존의 자동 미분 변분(ADVI) 대비 3~5배 빠른 수렴 속도와, 평균 절대 오차(MAE) 기준으로 10% 이하의 정확도 차이만을 보였다. 또한, 혼합 가우시안 근사를 사용했을 때는 사후분포의 다중극성을 효과적으로 포착해, 사후 예측 분포의 꼬리 부분까지 정확히 재현했다.
요약하면, 이 논문은 변분 추론을 ‘확률적 선형 회귀’라는 새로운 수치적 프레임워크에 매핑함으로써, 사후분포의 정규화 상수 문제를 회피하고, 고차원·복합 모델에서도 효율적인 근사를 가능하게 하는 실용적인 알고리즘을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기