희소성 및 무향 모델을 위한 변분 추론

**배경 및 문제 정의** 무향 그래프 모델(특히 볼츠만 머신)은 이산 데이터의 집합적 현상을 모델링하는 데 강력하지만, 파라미터 학습 시 파티션 함수 Z(θ)의 존재 때문에 로그우도 계산이 불가능해진다. 베이지안 접근을 시도하면 사전(p(θ))과 결합된 사후(p(θ|D))에서도 동일하게 Z(θ)가 내포되어 “이중 불가능성(doubly intractable)” 문제가 발생한다. 여기에 스파이크‑앤‑슬래브와 같은 이산 희소성 사전이나 스케일‑믹스처 연속 사전을 추가하면, 각 희소성 패턴마다 별도의 파라미터 공간과 파티션 함수가 필요하므로 “삼중 불가능성(triply intractable)”이 된다. 기존 방법은 MCMC‑within‑MCMC, 변분 근사에서 파티션 함수 근사, 혹은 L1 정규화와 같은 완화된 방법에 의존했으며, 이는 정확도와 해석 가능성에서 한계를 보였다. **제안된 방법 1: Persistent Variational Inference (PVI)** PVI는 변분 목표인 ELBO를 직접 최적화하면서, ∇θ log p(D|θ) 를 추정하기 위해 지속적인 마코프 체인(persistent Markov chains)을 활용한다. 구체적으로, 각 반복에서 n번의 Gibbs 스윕을 수행한 후 현재 파라미터 θ에 대한 샘플 x를 얻고, 이를 이용해 (4)식의 두 번째 기대값을 근사한다. 체인이 이전 반복에서 얻은 상태를 유지하므로, 파라미터가 소폭 변동될 때도 체인은 거의 평형에 머물러 빠르게 재수렴한다. 이는 기존 PCD( Persistent Contrastive Divergence)와 유사하지만, 변분 프레임워크에 맞게 ELBO의 전체 그래디언트를 제공한다. PVI‑n이라는 표기법으로 n번 스윕을 수행하는 버전을 정의하고, 이는 어떤 변분 그래디언트 추정기(예: reparameterization trick 기반)와도 호환된다. **제안된 방법 2: Fadeout (비중심화 재파라미터화)** 스케일‑믹스처 사전은 θ ∼ N(0,σ²) 와 σ² ∼ p(σ²) 로 정의되며, 이는 “펀넬” 형태의 강한 사전 상관관계를 만든다. 평균‑필드 가우시안 q(θ,σ) 로는 이 구조를 포착하기 어렵다. Fadeout은 변수를 ˜θ = θ/σ 로 재정의함으로써 사전에서 θ와 σ를 독립시킨다. 즉, (θ,σ) → (˜θ,σ) 변환 후 ˜θ ∼ N(0,1), σ는 원래 하이퍼사전 그대로 유지한다. 이렇게 하면 변분 분포가 ˜θ와 σ에 대해 완전 팩터라이즈될 수 있어, 평균‑필드 가우시안이 사전의 “funnel”을 정확히 근사한다. 알고리즘 1은 전역 하이퍼파라미터(μτ, sτ)와 지역 파라미터(μ˜θ, μlogσ 등)의 그래디언트를 자동 미분으로 계산하는 절차를 제시한다. 최종적으로 비중심화 파라미터에 대한 평균‑필드 q를 최적화하고, 중심화된 파라미터 θ는 ˆθ = μ˜θ · exp(μlogσ + ½ e^{2slogσ}) 로 추정한다. **통합 프레임워크** PVI와 Fadeout을 결합하면, (1) 파티션 함수를 직접 계산하거나 근사할 필요 없이 ELBO를 최적화하고, (2) 스케일 불확실성을 정확히 반영한 사후분포를 얻으며, (3) 지속적인 마코프 체인으로 샘플링 효율을 유지한다. 이 통합 방법은 “Persistent Variational Inference with Fadeout”이라 명명된다. **실험 및 결과** 1. **합성 데이터**: 랜덤하게 생성된 희소 커플링 행렬을 가진 이진 볼츠만 머신에 대해 L1 정규화, 표준 변분(중심화), MCMC, PVI+Fadeout을 비교하였다. PVI+Fadeout은 구조 복원 정확도(F1-score)와 파라미터 추정 RMSE에서 가장 우수했으며, 특히 Horseshoe 사전과 결합했을 때 극히 희소한 연결을 정확히 탐지했다. 2. **물리학 응용**: 스핀 글라스 모델의 실제 데이터에 적용했을 때, 기존 방법은 과도한 연결을 학습하거나 수렴이 느렸다. PVI+Fadeout은 실제 물리적 상호작용을 반영하는 희소 연결을 재현하고, 베이지안 사후 불확실성도 제공했다. 3. **생물학 응용**: 단백질 상호작용 네트워크를 이진 형태로 모델링한 사례에서, 희소성 사전(Horseshoe)과 Fadeout을 사용한 변분이 알려진 구조와 높은 일치도를 보였으며, 불확실성이 큰 영역을 자연스럽게 억제했다. **이론적 고찰** - **베이지안 Occam’s Razor**: 비중심화 사전은 σ가 작아질수록 θ의 사전 밀도가 원점에 집중되도록 하여, 불필요한 파라미터를 자동으로 억제한다. 이는 변분 최적화 과정에서 자연스럽게 발생한다. - **스케일 불확실성 관리**: 비중심화는 MCMC에서 흔히 겪는 “slow mixing” 문제를 완화한다. 변분에서는 평균‑필드 가우시안이 충분히 유연해져, 데이터가 약할 때는 사전이, 강할 때는 데이터가 주도하도록 자동 전환한다. **결론 및 향후 연구** 본 논문은 무향 이산 모델에 베이지안 희소성 사전을 적용하기 위한 실용적인 변분 프레임워크를 제시한다. Persistent VI와 Fadeout이라는 두 핵심 아이디어는 각각 샘플링 효율과 사전‑후방 상관관계 관리라는 문제를 해결한다. 향후 연구에서는 (1) 더 복잡한 비이산(예: 연속) 무향 모델에 대한 확장, (2) 비가우시안 변분 분포(예: 흐름 기반)와의 결합, (3) 대규모 그래프(수천·수만 노드)에서의 분산 구현 등을 탐색할 수 있다.

희소성 및 무향 모델을 위한 변분 추론

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기