Tubular Riemannian Laplace Approximations for Bayesian Neural Networks

읽는 시간: 9 분
...

📝 원문 정보

- Title: Tubular Riemannian Laplace Approximations for Bayesian Neural Networks
- ArXiv ID: 2512.24381
- 발행일: 2025-12-30
- 저자: Rodrigo Pereira David

📝 초록

라플라스 근사법은 신경망에서 약한 베이지안 추론 방법 중 가장 단순하고 실용적인 방법들 중 하나입니다. 그러나 그의 유구다 공간 표현식은 현대의 심층 모델을 특징짓는 높은 비등방성, 곡률 있는 손실 표면 및 큰 대칭 군에 어려움을 겪고 있습니다. 최근 연구에서는 이러한 구조에 적응하기 위해 리만과 기하학적인 가우스 근사를 제안하였습니다. 이러한 아이디어를 바탕으로 우리는 관형 리만 라플라스(TRL) 근사법을 소개합니다. TRL은 함수적 대칭성에 의해 유도되는 낮은 손실 계곡을 따라 확률적 튜브를 명시적으로 모델링하며, 피셔/เกา스-뉴턴 메트릭을 사용하여 사전 주도 탄젠셜 불확실성을 데이터 주도 횡단면 불확실성으로 분리합니다. 우리는 TRL을 암시적인 곡률 추정치를 활용하여 고차원 매개변수 공간에서 작동하는 확장 가능한 재매개변수화된 가우스 근사법으로 해석합니다. 우리의 실증적 평가에 따르면 ResNet-18(CIFAR-10 및 CIFAR-100)에서는 TRL이 우수한 교정을 달성하며, 딥 앙상블즈와 비교하여 ECE 측면에서 동일하거나 더 높은 신뢰성을 보여주면서 학습 비용의 분수(1/5)만 필요로 합니다. TRL은 단일 모델 효율과 앙상블 수준의 신뢰성 간의 격차를 효과적으로 연결합니다.

💡 논문 해설

#### 1. TRL의 소개: 확률적 관개관 TRL은 깊이 있는 신경망에서 발생하는 불확실성을 더 잘 모델링하기 위해 개발되었습니다. 이 방법을 이해하려면, 생각해볼 수 있는 하나의 메타포는 물길을 따라 흐르는 관개관입니다. 관개관은 물길(깊은 네트워크에서의 손실 협곡)에 맞춰 움직이며, 각 지점에서 필요한 양만큼의 물(예측 불확실성)을 제공합니다.

2. 실현 가능한 TRL: 효율적인 알고리즘 설계

TRL은 훈련 비용이 매우 높지 않으면서도 효과적인 불확실성 측정을 가능하게 합니다. 이를 이해하기 위해, 이 방법을 장비의 설계로 생각해 볼 수 있습니다. 예를 들어, TRL은 기존 훈련 과정과 유사한 비용으로 작동하는 고급 장치와 같습니다.

3. 실증적 평가: TRL의 성능 확인

TRL의 효과는 다양한 실험을 통해 검증되었습니다. 이를 이해하려면, 이 방법을 의료 진단 테스트로 생각해 볼 수 있습니다. TRL은 다른 기법보다 더 낮은 비용으로 동일한 수준의 정확성을 제공합니다.

📄 논문 발췌 (ArXiv Source)

# 서론

현대 딥러닝 시스템은 의료 진단, 자율주행 차량 및 과학적 발견과 같은 안전성이 중요한 분야에 점점 더 많이 배포되고 있습니다. 이러한 환경에서는 정확도만큼 불확실성 측정이 중요합니다: 모델은 자신이 모르는 것을 알아차릴 수 있어야 합니다. 베이지안 신경망(BNNs)은 가중치에 사전 분포를 적용하고 매개변수와 유발된 함수에 대한 후방 분포를 유지함으로써 불확실성을 논리적으로 다루는 방법을 제공합니다.

불행히도, 깊은 네트워크에서 정확한 베이지안 추론은 해결할 수 없으며, 실용적인 베이지안 딥러닝은 대략적인 방법들, 예를 들어 변분 추론, 몬테 카를로 샘플링 및 라플라스 근사 등에 의존합니다. 그 중에서 라플라스 근사는 개념적으로 간단하고 계산 비용이 적으며 기존 훈련 파이프라인과 쉽게 통합할 수 있어 매력적입니다. 유클리드 라플라스 근사(ELA)는 최대 사후 확률(MAP) 추정치 주변의 매개변수 공간에 가우시안을 맞춤으로써 부정 로그 사후 분포의 헤지안을 사용합니다. 최근 스케일러블한 헤지안 근사에 대한 진전에도 불구하고, ELA는 깊은 네트워크에서 과소적합하고 불량하게 캘리브레이션된 불확실성을 생산하는 것으로 알려져 있습니다.

최근 연구에서는 매개변수 공간 대신 함수 공간으로 이동함으로써 이러한 문제의 일부를 해결합니다. 선형화 라플라스 근사(LLA)는 MAP 주변에서 네트워크를 선형화하고 가우시안 무게 사후 분포를 야코비안을 통해 전파하여 예측 불확실성을 더 잘 포착하는 함수 공간의 과정을 생성합니다. 동시에, 정보 기하학과 리만 최적화는 페셔 정보 또는 가우스-뉴턴 행렬에서 유래한 메트릭이 장착된 신경망 매개변수 공간에 빈곤한 기하학적 구조가 있음을 강조했습니다. 이를 통해 Riemannian Laplace Approximations (RLA)는 이러한 메트릭에 대한 지오메트리 플로우를 사용하여 근사 사후 분포에서 샘플링합니다.

보완적인 관점은 Geometric Gaussian approximations을 도입하고 후방 근사를 가우시안 기초 측도를 통해 미분동형변환(ReparamGA) 또는 리만 지수 맵(RiemannGA)으로 푸싱하는 것에 의해 얻어진 가족이 경미한 정칙 조건 하에서 보편적임을 보여줍니다. 이는 많은 기존의 라플라스 유사 방법들을 공통의 기하학적 우산 아래 통합하고 메트릭과 매개변수화의 역할을 명확하게 합니다.

이 논문: 우리는 이러한 진전에 바탕을 두고 Bayesian neural networks에 특화된 Tubular Riemannian Laplace (TRL) 근사를 제안합니다. TRL은 깊은 네트워크에 대한 두 가지 경험적 관찰에서 영감을 받습니다: (i) 사후 질량이 가중치 공간에서 기능 대칭성으로 생성된 고차원의 loss valleys 또는 터널을 따라 조직되며, (ii) 부정 로그 사후 분포의 곡률은 특히 이러한 협곡을 따라 거의 평평하고 그 사이에 매우 날카로운 방향입니다. 표준 가우시안 근사는 이 기하학에 맞지 않습니다: 긴 곡선 협곡에 타원체를 맞춤으로써 본질적으로 부적절합니다.

TRL은 MAP 중심의 단일 가우시안 “거품” 대신 매개변수 공간을 통해 낮은 손실 곡선을 따르는 확률적인 관을 사후 근사로 모델링합니다. 이 관은 세 가지 핵심 구성 요소를 가지고 있습니다: (i) 가중치 공간에서 생성된 대칭성으로 인한 저손실 협곡을 추적하는 곡선, (ii) 페셔/가우스-뉴턴 메트릭에 의해 결정되는 횡방향 공분산, 그리고 (iii) 주로 사전에 의해 통제되는 접선 변동. 관에서 샘플링은 은닉 공간에 있는 1차원 협곡 좌표와 횡방향 좌표를 포함하는 등방성 가우시안의 푸싱으로 구현됩니다.

우리가 다음과 같은 기여를 합니다:

  • Tubular Riemannian Laplace (TRL)을 도입하여, 이는 대칭성에 의해 생성된 저손실 협곡을 따라 사후 질량을 모델링하는 기하학적 사후 근사로, 페셔/가우스-뉴턴 메트릭 하에서 사전 주도 접선 불확실성을 데이터 주도 횡방향 불확실성과 분리합니다.

  • 확장 가능한 구현을 유도하여, 랜초스와 Hessian-벡터 곱을 통한 암시적 곡률 추정을 결합하여 TRL이 명시적인 Hessian 또는 Jacobian 물질화 없이 고차원 네트워크에서 작동할 수 있도록 합니다. 이는 표준 훈련 비용과 비교할 때 비슷한 비용으로 가능합니다.

  • 합성 다양체부터 ResNet-18의 CIFAR-100 (주요 내용) 및 CIFAR-10 (부록 9.3 참조)까지 범위를 가진 경험적 평가를 제공합니다. TRL은 고차원 환경에서 강력한 캘리브레이션을 달성하며, Deep Ensembles와 ECE를 매칭하면서 훈련 비용의 일부분(1/5)만 필요로 합니다.

전반적으로 우리는 TRL의 기하학적 공식화 및 알고리즘 설계에 초점을 맞추며 표준 벤치마크에서 그 효과성을 입증합니다.

배경

우리는 사전 $`p(\theta)`$와 가능도 $`p(\mathcal{D}\mid\theta)`$를 갖는 Bayesian Neural Network를 고려합니다. 일반적인 근사에는 MAP에서 가우시안을 맞춤으로써 ELA가 포함되며, LLA는 이를 네트워크 함수의 1차 Taylor 전개에 적용합니다. 이러한 방법 또는 Fisher Information Matrix $`F(\theta)`$에 대해 익숙하지 않은 독자에게는 부록 8.1을 참조하십시오.

깊은 네트워크에서 손실 협곡의 기하학

깊은 네트워크에서 $`L(\theta)`$의 기하학은 두 가지 주요 특징으로 캐릭터라이즈됩니다:

  1. 대칭성에 의해 생성된 협곡: 많은 매개변수 구성은 대칭성(예: 순서 변경, 스케일링) 때문에 동일한 함수 $`f_\theta`$를 구현합니다. 이는 손실이 본질적으로 일정하게 유지되는 가중치 공간에서 궤도를 생성하여 고차원의 협곡을 형성합니다.

  2. 곡률의 극단적인 방향성: 손실은 대칭 방향에 대해 매우 평평하고 데이터 민감한 방향에 대해 매우 가파릅니다. 따라서 헤지안 스펙트럼은 넓은 범위의 고유값을 나타내며 많은 수의 극소 값이 있습니다.

그림 1(a)는 간단한 이차원 장난감 지형에서 이를 설명합니다: 사후 질량이 곡선 저손실 협곡을 따라 집중되지만, 단일 유클리드 가우시안 타원체는 협곡에 너무 좁거나 너무 넓게 위치할 수 있습니다. 이 기하학적 불일치는 TRL의 시작점으로서 타원체 대신 협곡을 따라 정렬된 관을 사용합니다.

style="height:3.5cm" />

(a) 관 모양 사후

style="height:3.5cm" />

(b) 접선 분해

TRL의 기하학. (a) 유클리드 라플라스는 국소 타원체를 맞춤으로써, TRL은 저손실 협곡을 따라 관 모양 사후를 모델링합니다. (b) 우리는 대칭성(v)과 데이터 민감한 방향(v)으로 곡률을 분해합니다.

페셔 기반 접선/법선 분해

$`\theta_0 = \theta_{\mathrm{MAP}}`$, $`F_0 = F(\theta_0)`$를 MAP에서 평가된 Fisher 정보 행렬로 고려합니다. 우리는 정규화 메트릭을 다음과 같이 정의합니다:

MATH
G_0 = F_0 + \lambda I,
클릭하여 더 보기

이는 데이터 주도 곡률과 이방성 사전을 결합합니다.

우리는 접선 공간 $`T_{\theta_0}\Theta`$를 다음과 같은 방식으로 근사 분해합니다:

MATH
T_{\theta_0}\Theta = T_{\theta_0} \oplus N_{\theta_0},
클릭하여 더 보기

여기서:

  • $`T_{\theta_0}`$는 $`v^\top F_0 v \approx 0`$을 만족하는 방향들에 의해 생성된 공간, 즉 네트워크 함수(그리고 따라서 가능도)가 거의 변하지 않는 방향들입니다. 이들은 근사 대칭성 또는 불변성 방향들입니다.

  • $`N_{\theta_0}`$는 $`G_0`$-직교 보완, 즉 $`v^\top F_0 v`$ 값이 큰 방향들에 의해 생성된 공간으로, 이 방향들은 함수에 크게 영향을 미치며 데이터에 의해 강하게 제약됩니다.

그림 1(b)는 이러한 분해의 두차원 카툰을 보여줍니다: 협곡 방향 $`v_{\parallel}`$은 손실 협곡의 바닥을 따라 있으며, 페셔 곡률이 무시할 수 있을 정도로 작습니다. 반면 횡방향 방향 $`v_{\perp}`$은 협곡을 가로지르며 큰 페셔 고유값과 연결되어 있습니다. TRL에서 $`v_{\parallel}`$은 관 축을 정의하며, $`N_{\theta_0}`$의 열들은 관 너비를 모델링하는 횡방향 방향들을 정의합니다.

실제로 우리는 $`G_0`$의 고유분해를 통해 이 분해를 근사합니다. $`G_0 = U \Lambda U^\top`$와 고유값 $`0 < \lambda_1 \le \lambda_2 \le \dots \le \lambda_K`$가 주어졌을 때, 가장 작은 고유벡터 $`v_\parallel = u_1`$를 대표 협곡 방향으로 선택하고 큰 고유값에 해당하는 $`k`$ 개의 주요 횡방향 방향 $`N_0 = [u_{i_1},\ldots,u_{i_k}]`$을 선택합니다. 이를 통해 다음과 같은 저차원 근사를 얻습니다:

MATH
T_{\theta_0} \approx \mathrm{span}\{v_\parallel\}, \qquad N_{\theta_0} \approx \mathrm{span}\{N_0\}.
클릭하여 더 보기

사전 대비 데이터 주도 분산

가우시안 근사와 함께 정밀 행렬 $`H \approx F_0 + \lambda I`$에서 고유벡터 $`u_i`$에 대한 분산은 약하게 $`1/(\lambda_i(F_0)+\lambda)`$입니다. 따라서:

  • 접선 방향에 대해 $`\lambda_i(F_0) \approx 0`$, 분산은 사전에 의해 주도되며, $`\mathrm{Var}_\parallel \approx 1/\lambda`$.

  • 횡방향 방향에 대해 $`\lambda_i(F_0) \gg \lambda`$, 분산은 데이터에 의해 주도되며, $`\mathrm{Var}_\perp \approx 1/\lambda_i(F_0)`$.

이 간단한 그림은 유클리드 라플라스의 핵심 난관을 명확히 합니다: 단일 타원체는 데이터 민감 방향에서 좁고 대칭성 협곡을 따라 충분히 넓지 못합니다. TRL은 이러한 불일치를 직접적으로 해결하여 단일 국소 타원체 대신 협곡을 따르는 관을 제안합니다.

Tubular Riemannian Laplace 근사

이제 Tubular Riemannian Laplace (TRL) 근사를 소개합니다. 우리의 목표는 다음과 같은 근사 사후를 구성하는 것입니다: (i) 기능 대칭성으로 인해 생성된 저손실 협곡을 따르고, (ii) 페셔/가우스-뉴턴 메트릭에 대한 데이터 주도 곡률을 반영하며, (iii) 계산상 유클리드 및 선형화 라플라스 방법과 비교할 수 있습니다.

그림 2는 TRL을 재매개변수화된 가우시안 근사의 직관적인 두차원 그림을 제공합니다. 간단한 등방성 가우시안이 은닉 관 좌표 (z_∥, z_⟂)에서 매개변수 공간으로 비선형 관 맵 T에 의해 매핑되어 타원체 대신 곡선 협곡을 따라 관 모양 분포를 생성합니다.

/>
TRL은 관 푸싱입니다. 왼쪽: 은닉 좌표 `(z_∥, z_⟂)`에서 가우시안 샘플링. 오른쪽: 매개변수 공간에서 `T`에 대한 대응 샘플링을 통해 곡선 협곡을 따라 관을 형성합니다.

설정 및 표기법

$`\theta_0 = \theta_{\mathrm{MAP}}`$, $`F_0 = F(\theta_0)`$, $`G_0 = F_0 + \lambda I`$와 Section 3에서의 정의를 고려합니다. 우리는 추출합니다:

  • 협곡 방향 $`v_\parallel \in \mathbb{R}^K`$는 가장 작은 고유값 λ_∥에 연결된 G_0의 표준화 고유벡터입니다.

  • $`K\times k`$ 행렬 $`N_0`$, 그 열은 $`k`$ 차원 횡방향 부분공간 $`N_{\theta_0}`$의 직교 기저를 형성하며, 일반적으로 G_0에 대한 상위 k 고유벡터로 선택됩니다.

또한 횡방향 정밀 행렬을 다음과 같이 정의합니다:

MATH
H_\perp = N_0^\top H_0 N_0,
클릭하여 더 보기

여기서 $`H_0`$는 MAP에서 적절한 헤지안 또는 가우스-뉴턴 근사입니다. 이에 대응하는 공분산은 $`\Sigma_\perp = H_\perp^{-1}`$, 그리고 그 Cholesky 인자는 L_⊥로 표기되며, $`\Sigma_\perp = L_\perp L_\perp^\top`$를 만족합니다.

곡률 메트릭 선택

우리는 단계 t에서의 국소 곡률을 H_t로 표시하지만, 딥러닝에서는 정확한 헤지안에 대한 엄격한 준수는 문제적입니다: 손실 지형은 고도로 비볼록하며, 음의 고유값은 횡방향 공분산 $`\Sigma_{\perp,t}`$를 정의 불가능하게 만듭니다. 실제로 우리는 양의 반정부(PSD) 곡률 근사인 일반화된 가우스-뉴턴(GGN) 행렬 또는 고유값을 작은 양수 임계치로 클램핑한 헤지안을 사용합니다. 이러한 선택은 횡방향 부분공간에서 유의미한 확률적 해석이 가능한 공분산을 보장합니다.

GGN는 라플라스 근사 문헌에서 사실상 표준이 되었으며, Fisher 정보 메트릭에 대한 합리적인 근사를 제공하면서 계산적으로 안정적이며 크로네커 분해가 가능합니다. 반면, 경험적 페셔는 진짜 데이터 분포를 경험이라는 것으로 대체하여 왜곡된 곡률 추정치와 불안정한 자연 기울기 업데이트를 초래할 수 있습니다. TRL을 GGN 스타일의 메트릭 위에 구축함으로써(혹은 최악의 경우 PSD-rectified 헤지안) 이러한 이론적 보장 사항을 상속합니다: 횡방향 공분산 $`\Sigma_{\perp,t}`$는 항상 잘 정의되어 있으며, $`\mathcal{N}_t`$에서 주요 방향은 데이터가 모델을 진정으로 제약하는 방향에 맞춰져 있습니다.

협곡 곡선 및 관 좌표

적화된 TRL은 매개변수 공간을 통과하는 부드러운 곡선

MATH
\begin{align}
\gamma:\mathbb{R}\to\mathbb{R}^K,\qquad t\mapsto \gamma(t),
\end{align}
클릭하여 더 보기

이 존재한다는 가정을 합니다:

MATH
\begin{align}
\gamma(0) &= \theta_0, \\
L(\gamma(t)) &\approx L(\theta_0) \quad \text{for } t \text{ in a suitable interval}, \\
\dot\gamma(t) &= \frac{d}{dt}\gamma(t) \in T_{\gamma(t)} \Theta
\end{align}
클릭하여 더 보기

그리고 $`\dot\gamma(t)`$는 낮은 페셔 곡률 방향을 근사적으로 스패닝합니다, 즉, $`\dot\gamma(t)^\top F(\gamma(t))\,\dot\gamma(t)\approx 0`$. 실제로 우리는 이론적 추세를 고려합니다.


[Title_Easy_KO]: “TRL: 신경망 불확실성 측정의 혁신” [Title_Easy_EN]: “TRL: A New Way to Measure Uncertainty in Neural Networks”


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키