LDA 알고리즘 비교: 온라인 변분 추론이 가장 빠른 선택

본 논문은 잠재 디리클레 할당(LDA) 모델의 세 가지 대표적인 추론 방법—Collapsed Gibbs 샘플링, 전통적인 변분 베이즈(VB) 그리고 온라인 변분 베이즈(Online VB)—를 이론적 복잡도와 실험적 성능 측면에서 비교한다. 실험 결과, Online VB가 가장 짧은 학습 시간을 보였으며, 정확도(퍼플렉시티)에서는 전통 VB와 Gibbs 샘플링에 약간 뒤처지지만 실용적인 수준을 유지한다는 결론을 제시한다.

저자: Jaka v{S}peh, Andrej Muhiv{c}, Jan Rupnik

LDA 알고리즘 비교: 온라인 변분 추론이 가장 빠른 선택
이 논문은 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 모델의 핵심 추론 알고리즘 세 가지를 체계적으로 비교한다. 먼저 LDA 모델 자체를 간단히 소개한다. LDA는 M개의 문서가 K개의 토픽으로 구성된 확률적 생성 과정을 따르며, 각 토픽은 단어 분포 φₖ∼Dirichlet(β), 각 문서는 토픽 분포 θₘ∼Dirichlet(α)로부터 생성된다. 관측된 단어 w와 숨겨진 변수(z,θ,φ) 사이의 결합 확률은 식 (2)와 같이 정의되지만, 사후 분포 p(z,θ,φ|w,α,β)는 직접 계산이 불가능하므로 근사 추론이 필요하다. 논문은 근사 추론 방법을 크게 두 부류로 나눈다. 첫 번째는 MCMC 기반의 Collapsed Gibbs 샘플링이며, 두 번째는 변분 추론(Variational Bayesian, VB)이다. **1. Collapsed Gibbs 샘플링** θ와 φ를 사전에 적분해버린 뒤, 토픽 할당 변수 z만을 샘플링한다. 조건부 확률 p(zₘₙ=k|z_{¬(m,n)},w,α,β)∝(n_{v,k}^{¬}+β)/(∑_v n_{v,k}^{¬}+Vβ)·(n_{k,m}^{¬}+α)/(∑_k n_{k,m}^{¬}+Kα) 형태가 도출된다(식 1). 여기서 n_{v,k}는 단어 v가 토픽 k에 할당된 횟수, n_{k,m}은 문서 m에서 토픽 k가 할당된 횟수를 의미한다. 알고리즘은 초기 z를 무작위로 할당하고, 모든 토큰에 대해 위 확률에 따라 새 토픽을 샘플링하며, 통계량을 업데이트한다. 수렴 판단은 z의 상대 변화율을 기준으로 하지만, 실험에서는 1000회 반복 후에도 20% 이하로 감소하지 않아 수렴하지 못했다. 이는 대규모 코퍼스에서 Gibbs 샘플링이 비효율적임을 보여준다. **2. 전통 변분 베이즈(VB)** q(z,θ,φ)=∏_m∏_n q(zₘₙ)·∏_m q(θₘ)·∏_k q(φₖ) 형태의 완전 팩터화된 분포를 가정한다. 파라미터 ψₘₙₖ, γₘₖ, λₖᵥ를 각각 토픽 할당, 문서‑토픽, 코퍼스‑토픽에 대응시킨다. ELBO L(w,ψ,γ,λ)=E_q

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기