LDA 알고리즘 비교: 온라인 변분 추론이 가장 빠른 선택

이 논문은 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 모델의 핵심 추론 알고리즘 세 가지를 체계적으로 비교한다. 먼저 LDA 모델 자체를 간단히 소개한다. LDA는 M개의 문서가 K개의 토픽으로 구성된 확률적 생성 과정을 따르며, 각 토픽은 단어 분포 φₖ∼Dirichlet(β), 각 문서는 토픽 분포 θₘ∼Dirichlet(α)로부터 생성된다. 관측된 단어 w와 숨겨진 변수(z,θ,φ) 사이의 결합 확률은 식 (2)와 같이 정의되지만, 사후 분포 p(z,θ,φ|w,α,β)는 직접 계산이 불가능하므로 근사 추론이 필요하다. 논문은 근사 추론 방법을 크게 두 부류로 나눈다. 첫 번째는 MCMC 기반의 Collapsed Gibbs 샘플링이며, 두 번째는 변분 추론(Variational Bayesian, VB)이다. **1. Collapsed Gibbs 샘플링** θ와 φ를 사전에 적분해버린 뒤, 토픽 할당 변수 z만을 샘플링한다. 조건부 확률 p(zₘₙ=k|z_{¬(m,n)},w,α,β)∝(n_{v,k}^{¬}+β)/(∑_v n_{v,k}^{¬}+Vβ)·(n_{k,m}^{¬}+α)/(∑_k n_{k,m}^{¬}+Kα) 형태가 도출된다(식 1). 여기서 n_{v,k}는 단어 v가 토픽 k에 할당된 횟수, n_{k,m}은 문서 m에서 토픽 k가 할당된 횟수를 의미한다. 알고리즘은 초기 z를 무작위로 할당하고, 모든 토큰에 대해 위 확률에 따라 새 토픽을 샘플링하며, 통계량을 업데이트한다. 수렴 판단은 z의 상대 변화율을 기준으로 하지만, 실험에서는 1000회 반복 후에도 20% 이하로 감소하지 않아 수렴하지 못했다. 이는 대규모 코퍼스에서 Gibbs 샘플링이 비효율적임을 보여준다. **2. 전통 변분 베이즈(VB)** q(z,θ,φ)=∏_m∏_n q(zₘₙ)·∏_m q(θₘ)·∏_k q(φₖ) 형태의 완전 팩터화된 분포를 가정한다. 파라미터 ψₘₙₖ, γₘₖ, λₖᵥ를 각각 토픽 할당, 문서‑토픽, 코퍼스‑토픽에 대응시킨다. ELBO L(w,ψ,γ,λ)=E_q

LDA 알고리즘 비교: 온라인 변분 추론이 가장 빠른 선택

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기