분할 해밀턴 몬테카를로로 빠른 베이지안 샘플링

본 논문은 해밀턴 몬테카를로(HMC)의 효율을 높이기 위해 해밀턴 함수를 두 부분으로 “분할”하는 방법을 제안한다. 하나는 분석적으로 풀 수 있는 2차형(가우시안) 에너지이며, 다른 하나는 느리게 변하는 비선형 잔차 항이다. 이 분할을 이용하면 비용이 큰 그래디언트 계산을 적게 수행하면서도 큰 스텝 사이즈를 사용할 수 있어 로지스틱 회귀와 같은 베이지안 모델에서 샘플링 속도가 크게 향상된다.

저자: Babak Shahbaba, Shiwei Lan, Wesley O. Johnson

분할 해밀턴 몬테카를로로 빠른 베이지안 샘플링
본 논문은 해밀턴 몬테카를로(HMC) 알고리즘의 계산 효율성을 높이기 위한 새로운 기법, ‘분할 해밀턴 몬테카를로(Split HMC)’를 제안한다. HMC는 목표 분포의 로그밀도 U(q)를 잠재 에너지, K(p)를 운동 에너지로 하는 해밀턴 함수를 정의하고, 레프보그(Leapfrog)와 같은 수치적 시간 이산화를 통해 제안 상태를 만든다. 그러나 레프보그 단계마다 U(q)의 그래디언트를 계산해야 하므로, 고차원·대규모 데이터 상황에서 계산 비용이 급증한다. 이를 해결하기 위해 저자는 해밀턴 함수를 두 개 이상의 부분으로 나누는 ‘splitting’ 기법을 도입한다. 첫 번째 접근법은 U(q)를 U₀(q)+U₁(q) 로 분해하는 것이다. 여기서 U₀(q)는 2차형(가우시안) 근사이며, Hessian J( q̂ )를 이용해 U₀(q)=½(q−q̂)ᵀJ(q̂)(q−q̂) 로 정의한다. 이 경우 U₀와 K(p)의 합인 H₂는 완전한 선형 시스템이 되며, 행렬 지수 exp(At) 혹은 고유값 분해를 통해 정확히 풀 수 있다. 즉, 중간 단계는 무오차이며 큰 스텝 사이즈 ε를 사용할 수 있다. 반면 U₁(q)=U(q)−U₀(q) 는 원래 에너지와 근사 사이의 차이로, 변동이 느리기 때문에 절반 스텝(ε/2)만 수행한다. 전체 레프보그 루프는 ‘절반 U₁ → 정확한 H₂ → 절반 U₁’ 순서로 진행되며, 이는 기존 레프보그와 동일한 symplectic, reversible 특성을 유지한다. 이 방법은 특히 베이지안 모델에서 사후 모드와 Hessian을 빠르게 구할 수 있을 때 유용하며, 논문은 로지스틱 회귀에 적용해 가우시안 근사 기반 Split HMC가 기존 HMC 대비 2~3배 빠른 효율을 보였음을 보고한다. 두 번째 접근법은 데이터 자체를 두 부분 R₀, R₁ 로 나누어 U₀와 U₁을 정의한다. U₀는 소규모 핵심 데이터에 기반한 빠른 로그우도와 사전항을 포함하고, U₁은 나머지 대규모 데이터에 대한 로그우도만을 포함한다. 이 경우 전체 해밀턴을 ‘U₁/2 + (U₀/2M + K/M + U₀/2M)×M + U₁/2’ 형태로 분할한다. 외부 루프는 큰 스텝 ε 로 U₁에 대해 절반 스텝을 수행하고, 내부 루프는 M 번에 걸쳐 작은 스텝 ε/M 로 U₀와 K를 교대로 업데이트한다(중첩 레프보그). 이렇게 하면 비용이 높은 U₁에 대한 평가 횟수가 크게 줄어들고, 저비용 U₀에 대한 평가를 여러 번 수행함으로써 전체 트라젝터리 정확성을 유지한다. 논문은 실제 로지스틱 회귀 데이터셋에서 핵심 사례를 5% 정도만 사용해 U₀를 구성하고, 나머지 95%를 U₁에 할당했을 때, 기존 HMC 대비 약 4배의 샘플링 속도 향상을 확인했다. 알고리즘 1은 분석적 해가 가능한 경우(가우시안 근사)에서의 구체적인 Leapfrog 절차를 제시하고, 알고리즘 2는 데이터 분할 기반 중첩 Leapfrog을 구현한다. 두 알고리즘 모두 초기 모멘텀 p를 표준 정규분포에서 샘플링하고, 제안된 상태에 대해 메트로폴리스 수용률을 계산한다. 수용률은 원래 HMC와 비슷하거나 오히려 높게 유지되며, 이는 분할이 에너지 보존 오차를 크게 증가시키지 않음을 의미한다. 이론적 배경으로는 해밀턴 시스템의 symplectic 구조와 가역성, 그리고 Leimkuhler와 Reich(2004)의 분할 방법론을 인용한다. 또한, Neal(2010)의 HMC 리뷰와 Beskos et al.(2011)의 무한 차원 가우시안 근사 연구를 연결해 현재 접근법의 일반성을 강조한다. 실험 결과는 로그우도와 사후 분포의 형태가 복잡한 경우에도, 적절한 근사와 데이터 분할을 통해 Split HMC가 기존 HMC보다 현저히 적은 그래디언트 평가로 동일한 탐색 효율을 달성함을 보여준다. 마지막으로, 저자들은 구현 코드를 공개하고, 향후 고차원·대규모 베이지안 모델, 특히 변분 베이지안 및 딥러닝 기반 확률 모델에 적용 가능성을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기