계층 베이지안 모델을 위한 반분리 해밀턴 몬테카를로
초록
본 논문은 계층 베이지안 모델에서 파라미터와 하이퍼파라미터 사이의 강한 상관관계로 인한 샘플링 어려움을 해결하고자, 질량 행렬을 블록 대각선 형태로 제한한 ‘반분리 해밀턴’ 구조를 도입한다. 이를 기반으로 두 개의 단순한 해밀턴 시스템으로 분해하고, 교차 블록‑리프프로그(Alternating Blockwise Leapfrog) 알고리즘을 적용해 효율적인 RMHMC 변형인 SSHMC를 제안한다. 실험적으로 기존 Gibbs 샘플링보다 빠른 혼합을 보이며, 전통적인 RMHMC보다 구현과 계산이 간단하다.
상세 분석
계층 베이지안 모델은 각 그룹의 파라미터 θᵢ가 공통 하이퍼파라미터 φ에 의해 결합되므로, 사후분포 p(θ,φ|D)에서 θ와 φ 사이에 매우 강한 상관관계가 발생한다. 이러한 구조는 전통적인 Gibbs 샘플링이나 표준 HMC가 높은 자동상관을 보이며 수렴이 느려지는 원인이 된다. 최근 제안된 Riemannian Manifold HMC(RMHMC)는 위치‑의존 질량 행렬 G(z)=Fisher Information Matrix을 이용해 지역 기하 정보를 반영함으로써 혼합 속도를 개선하지만, G의 차원이 d×d (d=n+m)일 때 O(d³) 비용이 소요돼 대규모 문제에 적용하기 어렵다.
논문은 질량 행렬을
G(θ,φ)=⎡G_θ(φ,x) 0⎤
⎣0 G_φ(θ)⎦
와 같이 블록 대각선 형태로 제한한다. 여기서 G_θ는 φ와 데이터 x에만 의존하고, G_φ는 θ에만 의존한다는 점이 핵심이다. 이 구조를 ‘반분리(semi‑separable)’라 명명하고, 전체 해밀턴 H(θ,φ,r_θ,r_φ)=U(θ,φ)+K(r_θ,r_φ|θ,φ) 를 두 개의 분리 가능한 서브 해밀턴 H₁(θ,r_θ;φ,r_φ)와 H₂(φ,r_φ;θ,r_θ) 로 분해한다.
각 서브 해밀턴은 전통적인 leapfrog(리프프로그) 업데이트가 바로 적용 가능하므로, 복잡한 일반화 리프프로그(GLI) 연산이 필요 없다. 중요한 점은 두 서브 시스템이 ‘보조 포텐셜(auxiliary potential)’ A(r_θ|φ)와 A(r_φ|θ) 로 서로 에너지를 공유한다는 것이다. 예를 들어 H₁의 leapfrog 단계에서 r_θ의 운동 에너지가 증가하면, 다음 H₂ 단계에서 φ의 포텐셜 에너지에 해당 보조 항이 반영되어 φ 공간에서 더 큰 변화를 허용한다. 이 메커니즘은 Gibbs‑within‑RMHMC이 놓치는 θ‑r_θ와 φ‑r_φ 사이의 상호작용을 복원함으로써, 두 변수 집합 모두에서 혼합 속도를 크게 향상시킨다.
알고리즘은 다음과 같다. 초기화 후 r_θ∼N(0,G_θ⁻¹), r_φ∼N(0,G_φ⁻¹) 를 샘플링하고, L번의 ‘ALBA 단계’를 수행한다. 각 단계는 (1) H₁에 대해 half‑step leapfrog, (2) H₂에 대해 full‑step leapfrog, (3) 다시 H₁에 대해 half‑step leapfrog 순으로 진행한다. 최종 상태는 Metropolis‑Hastings 수용률을 통해 원래 목표 분포 π(θ,φ) 로 보정한다.
이 절차는 각 서브 leapfrog가 가역적이고 부피 보존이며 symplectic하므로, 전체 변환도 동일한 성질을 유지한다. 따라서 정확한 Hamiltonian 보존을 기대할 수 없더라도, MH 보정으로 목표 분포에 대한 불변성을 보장한다.
SSHMC는 질량 행렬 선택에 있어 기존 RMHMC‑within‑Gibbs와 유사하게, θ‑조건부 로그우도 Hessian 의 역행렬을 G_θ로, φ‑조건부 Hessian 의 역행렬을 G_φ로 사용한다. 이때 Hessian 이 θ 혹은 φ 에 독립적인 경우 계산 비용이 O(n m) 수준으로 크게 감소한다. 로지스틱 회귀와 같은 비선형 모델에서도 근사적인 Fisher 정보 행렬을 이용해 실용적인 성능을 얻을 수 있다.
실험에서는 Gaussian funnel, 다중 그룹 선형 회귀, 그리고 베이지안 신경망 등에서 기존 Gibbs 샘플링 대비 유의미한 ESS(Effective Sample Size) 향상을 보였으며, RMHMC 대비 2~5배 정도의 실행 시간 절감 효과를 기록했다.
결론적으로, 반분리 질량 행렬과 교차 블록‑리프프로그 통합은 계층 모델의 고차원 상관 구조를 효율적으로 다루는 새로운 RMHMC 변형을 제공한다. 이는 복잡한 베이지안 모델에서 정확도와 효율성을 동시에 만족시키는 실용적인 MCMC 도구로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기