선형 라플라스 근사에 대한 2차 확장: Quadratic Laplace Approximation
초록
본 논문은 기존 Linearized Laplace Approximation(LLA)의 후방 분포 선형화가 정확도를 저하시킬 수 있다는 점을 지적하고, Hessian‑vector product만을 이용해 1위 고유벡터를 추정하는 Quadratic Laplace Approximation(QLA)를 제안한다. QLA는 후방 정밀도 행렬을 보다 실제 라플라스에 가깝게 보정하면서도 전체 Hessian을 구성하지 않아 계산 비용을 크게 늘리지 않는다. 예측 단계에서는 여전히 선형화 모델을 사용해 과도한 불확실성 할당을 억제한다. 5개의 회귀 데이터셋 실험에서 NLL과 CRPS 점수가 전반적으로 소폭이지만 일관되게 개선됨을 보였다.
상세 분석
LLA는 MAP 파라미터 θ* 주변을 1차 테일러 전개한 선형 모델 fθlin(x,θ)=f(x,θ)+Jθᵀ(x)(θ−θ)에 라플라스 근사를 적용한다. 이때 후방 정밀도 Σ⁻¹_GGN은 Generalized Gauss‑Newton(GGN) 근사 Σ⁻¹_GGN=∑ₙJθ*(xₙ)ΛₙJθ*ᵀ(xₙ)+S₀⁻¹ 로 계산되며, Hessian을 직접 구하지 않아도 되지만, GGN은 2차 정보(즉, Hessian)의 일부만을 반영한다. 특히, 각 데이터 포인트마다 Hessian의 전체 스펙트럼을 무시하고, 오직 Jacobian에 의한 외적만 남기게 된다. 이는 후방 분포의 폭을 과소평가하거나, 불확실성 캘리브레이션을 왜곡할 위험이 있다.
QLA는 이러한 한계를 극복하기 위해 θ* 주변을 2차 테일러 전개한 fθquad(x,θ)=fθlin(x,θ)+½(θ−θ*)ᵀHθ*(x)(θ−θ*) 를 사용한다. 여기서 Hθ*(x) 는 입력별 파라미터 Hessian이다. 후방 정밀도는 Σ⁻¹_QTE=∑ₙ∇²_θ log p(yₙ|fθquad(xₙ,θ))|_{θ}+S₀⁻¹ 로 정의되지만, 직접 Hessian을 구하면 비용이 폭발한다. 논문은 이를 회피하기 위해 Power Iteration을 적용한다. 초기 벡터를 Jacobian Jθ*(x) 로 설정하고, A=∇²_θ log p(y|fθquad) 를 반복적으로 곱해 가장 큰 고유벡터 ẑ를 추정한다. 이 과정에서 필요한 연산은 Hθ(x)·z와 Jθ*(x)·(Λ·Jθ*ᵀ(x)·z) 로, 둘 다 자동 미분을 이용한 Hessian‑vector product 로 효율적으로 구현 가능하다. 10번 정도의 반복이면 충분히 수렴한다는 실험 결과가 제시된다.
추정된 ẑ는 A의 1위 근사 A≈ẑẑᵀ 를 제공하고, 이를 통해 Σ⁻¹_QTE≈∑ₙẑₙẑₙᵀ+S₀⁻¹ 로 표현한다. 즉, 전체 Hessian 대신 각 데이터 포인트마다 가장 영향력 큰 1차원 방향만을 보존한다. 이는 라플라스 근사의 정밀도를 크게 개선하면서도 메모리와 연산량을 O(P) 수준으로 유지한다는 장점이 있다. 그러나 2차 전개를 그대로 사용해 예측하면 평균이 MAP 출력과 달라지고, 분산이 라플라스와 유사해 과도한 불확실성 할당 문제가 재발한다. 따라서 논문은 예측 단계에서 LLA와 동일하게 선형화 모델을 사용한다. 이렇게 하면 평균은 f(x,θ*) 로 유지되고, 분산은 Jθᵀ(x)Σ_QTEJθ(x) 로 계산되어, QLA가 제공한 정교한 정밀도가 직접 반영된다.
실험에서는 UCI 회귀 데이터셋 5개에 대해 동일한 DNN 구조와 하이퍼파라미터를 사용해 LLA와 QLA를 비교했다. 데이터는 “in‑between” 스플릿으로 훈련/테스트를 나누어 OOD 상황에서도 불확실성 추정 능력을 평가했다. 평가 지표는 Negative Log Likelihood(NLL)와 Continuous Ranked Probability Score(CRPS)이며, 두 지표 모두 낮을수록 좋은 예측이다. 결과 표(Table 1)에서 QLA는 대부분의 경우 NLL과 CRPS가 LLA보다 약 0.001~0.02 정도 낮아 일관된 개선을 보였다. 특히 Boston Housing과 Energy Efficiency 데이터셋에서 가장 큰 차이를 기록했으며, 다른 데이터셋에서도 차이는 작지만 통계적으로 의미 있는 수준이었다. 이는 QLA가 후방 정밀도를 더 정확히 잡아내어 예측 분산을 실제 오차와 더 잘 맞추게 함을 의미한다.
한계점으로는 현재 구현이 회귀 문제에만 적용되었고, 다변량 출력이나 분류 문제에 대한 확장은 아직 미완성이다. 또한 1위 고유벡터만을 사용함으로써 Hessian의 저차원 구조를 완전히 포착하지 못한다는 점이 있다. 향후 연구에서는 다중 고유벡터를 이용한 저‑랭크 근사, 혹은 inducing‑point 기반 스케일링 기법을 도입해 대규모 네트워크에도 적용 가능하도록 할 계획이다.
요약하면, QLA는 LLA의 계산 효율성을 유지하면서 후방 정밀도 추정에 2차 정보를 효율적으로 통합한 방법이며, 실험을 통해 불확실성 캘리브레이션이 미세하게나마 향상됨을 입증하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기