“얕은 앙상블을 효율적으로 훈련시키는 비법: 에너지·힘 불확실성 정밀 보정”

2026년 02월 23일

읽는 시간: 8 분

...

📝 Abstract

Shallow ensembles provide a convenient strategy for uncertainty quantification in machine learning interatomic potentials, that is computationally efficient because the different ensemble members share a large part of the model weights. In this work, we systematically investigate training strategies for shallow ensembles to balance calibration performance with computational cost. We first demonstrate that explicit optimization of a negative log-likelihood (NLL) loss improves calibration with respect to approaches based on ensembles of randomly initialized models, or on a last-layer Laplace approximation. However, models trained solely on energy objectives yield miscalibrated force estimates. We show that explicitly modeling force uncertainties via an NLL objective is essential for reliable calibration, though it typically incurs a significant computational overhead. To address this, we validate an efficient protocol: full-model fine-tuning of a shallow ensemble originally trained with a probabilistic energy loss, or one sampled from the Laplace posterior. This approach results in negligible reduction in calibration quality compared to training from scratch, while reducing training time by up to 96%. We evaluate this protocol across a diverse range of materials, including amorphous carbon, ionic liquids (BMIM), liquid water (H $_2 $O), barium titanate (BaTiO $_3 $), and a model tetrapeptide (Ac-Ala3-NHMe), establishing practical guidelines for reliable uncertainty quantification in atomistic machine learning.

💡 Analysis

1. 연구 배경 및 필요성

MLIP의 불확실성은 에피스테믹(데이터 부족)·알레아토릭(데이터 노이즈)·모델 미스스펙(구조적 한계)으로 구분된다.
원자 규모 시뮬레이션에서는 **불확실성 정량화(UQ)**가 없으면 빠른 ML 모델이 오히려 신뢰성을 떨어뜨릴 위험이 있다.
기존 전통적인 Full Ensemble(독립 모델 다중 학습) 방식은 정확도와 견고성은 높지만, 훈련·추론 비용이 선형적으로 증가해 실용성이 떨어진다.

2. 핵심 아이디어

Shallow Ensemble (DPOSE): 백본(특징 추출) 가중치를 공유하고, 마지막 레이어만 여러 개 두어 앙상블을 구성한다.
NLL 손실을 사용해 에너지와 힘 모두에 대한 확률적 예측을 학습함으로써, 불확실성 정보가 백본까지 전파되게 한다.
LLPR (Last‑Layer Prediction Rigidity): 라플라스 근사를 이용해 단일 모델의 마지막 레이어에 대한 포스터리어를 추정한다. 기존에는 에너지에만 적용됐으나, 본 연구에서는 힘까지 확장한다.

3. 실험 설계 및 비교

방법	학습 목표	불확실성 추정 방식	계산 비용 (학습)	캘리브레이션 품질
Random Init Ensemble	MSE (에너지)	샘플 평균·분산	매우 높음 (전체 모델 n배)	낮음 (특히 힘)
DPOSE (Energy‑NLL)	에너지 NLL	샤로우 앙상블 분산	낮음 (마지막 레이어만)	에너지 캘리브레이션 우수, 힘 미보정
DPOSE (Energy+Force NLL)	에너지·힘 NLL	샤로우 앙상블 분산	중간 (힘 Jacobian 필요)	에너지·힘 모두 고품질
LLPR (Energy)	MSE (에너지)	라플라스 후방 분산	낮음 (후처리)	에너지 캘리브레이션 양호
LLPR (Energy+Force)	MSE + Force NLL (포스터리어에 포함)	라플라스 후방 + 샘플링	높음 (Hessian/ Jacobian)	힘 캘리브레이션 향상, 비용 부담

4. 주요 결과

NLL 기반 학습이 캘리브레이션을 크게 개선한다. 특히 힘에 대한 NLL을 포함하면, 힘 불확실성이 실제 오류와 잘 맞는다.
전체 모델 파인‑튜닝 전략이 핵심이다.
- 초기 학습 단계에서는 에너지 NLL(또는 라플라스 샘플링)만 사용해 빠르게 얕은 앙상블을 만든다.
- 이후 전체 모델(백본+마지막 레이어)을 짧게 파인‑튜닝하면서 힘 NLL을 추가한다.
- 이 과정에서 학습 시간은 최대 96 % 절감되고, 캘리브레이션 손실은 < 2 % 수준으로 미미하게 감소한다.
다양한 물질군에 대한 검증 결과, 제안된 프로토콜이 전반적으로 에너지·힘 RMSE와 Expected Calibration Error (ECE) 모두에서 기존 방법보다 우수함을 확인했다.

5. 의의 및 기여

실용적인 UQ 프레임워크를 제공한다. 연구자는 고비용의 Full Ensemble 없이도 신뢰할 수 있는 불확실성 추정이 가능해진다.
힘 불확실성을 명시적으로 다루는 것이 캘리브레이션에 결정적이라는 점을 실증적으로 입증했다.
샤로우 앙상블과 라플라스 근사의 관계를 명확히 구분하고, 두 방법이 서로 보완적임을 보여준다.

6. 한계 및 향후 연구 방향

한계	설명	향후 과제
Jacobian 비용	힘 NLL 학습 시 전체 앙상블에 대해 Jacobian을 매 스텝 계산해야 함	효율적인 자동 미분/벡터화 기법 개발, 혹은 근사 Jacobian 사용
스케일링	현재 실험은 수천~수만 원자 수준 데이터셋에 국한	대규모 (수백만 원자) 시뮬레이션에 적용 가능한 분산 학습 파이프라인 구축
모델 다양성	주로 GMNN, So3krates, NequIP 스타일을 사용	Transformer‑기반 원자 모델, Graph Neural Network 등 다양한 아키텍처에 대한 일반화 검증
포스터리어 근사	라플라스 근사는 2차 근사에 불과해 복잡한 비선형 후방을 충분히 포착하지 못함	베이지안 딥러닝(예: 변분 추정, HMC)과 결합한 하이브리드 방법 탐색
실제 물리적 적용	캘리브레이션 지표는 통계적이지만, 실제 물리량(예: 상전이 온도)에 미치는 영향은 제한적	캘리브레이션된 UQ를 이용한 불확실성 전파(예: 자유 에너지 계산, 반응 경로 샘플링) 연구 확대

7. 실무 적용 가이드 (요약)

초기 학습 – 에너지 NLL(또는 라플라스 샘플링)으로 얕은 앙상블을 빠르게 구축.
파인‑튜닝 – 전체 모델을 짧게 학습하면서 힘 NLL을 추가.
평가 – 에너지·힘 모두에 대해 ECE와 RMSE를 확인하고, 필요 시 앙상블 크기(n_ens)를 4~8 정도로 조정.
배포 – 추론 시 에너지와 평균 힘은 단일 모델 비용으로, 불확실성은 필요 시에만 샤로우 앙상블(또는 샘플링된 라플라스)으로 계산.

🇺🇸 Read in English

📄 Content

머신러닝(ML) 대리 모델 및 머신러닝 원자간 포텐셜(MLIP)을 일차원 원리 원자 모델링 워크플로에 도입할 때는 항상 신중을 기해야 합니다. 대부분의 ML 모델은 통계 학습 프레임워크에서 출발하므로, 제한된 지식(인식 불확실성)[1], 학습 데이터에 내재된 불가피한 잡음(우연 불확실성)[2,3], 그리고 선택된 ML 아키텍처가 복잡한 물리적 상호작용을 포착하지 못하는 경우(모델 오규격화)[4]와 같은 추가적인 예측 불확실성을 도입합니다. 이러한 불확실성은 ML 가속을 목표로 하는 전자구조 방법으로 계산된 관측값과 실험 관측값 사이에 이미 존재하던 차이[5,6]에 더해집니다.

실제로, 이러한 추가 불확실성은 더 빠른 ML 모델을 사용함으로써 얻을 수 있는 이점을 상쇄시킬 수 있습니다. 따라서 ML 모델을 성공적으로 배치하고, ML‑가속 시뮬레이션을 신뢰성 있게 해석하기 위해서는 정확한 점 추정치뿐만 아니라 잘 보정된 불확실성 추정[7]을 통해 예측의 신뢰성을 정량화하고, 궁극적으로 파생량에 대한 모델 불확실성을 전파할 실용적인 방법[8,9]이 필요합니다. 활성 학습 절차[10‑13]를 통한 데이터 생성 외에도, 보정된 불확실성은 생산 시뮬레이션에서 필수적이며, 신뢰할 수 없는 결과를 표시하거나 하위 워크플로에 전파되어 평균 열역학량의 오류를 정량화하는 데 활용될 수 있습니다[9].

신경망 기반 ML 모델의 특성

신경망(NN) 기반 ML 모델은 학습 및 추론 모두에서 유리한 점근적 스케일링을 제공하고, 일반적인 머신러닝 프레임워크에 최적화된 구현이 존재하기 때문에 인기를 얻었습니다. 반면, 가우시안 프로세스 회귀(GPR)와 같이 사후 추론이 내장된 모델과 달리, 전통적인 NN은 최대우도(MLE) 혹은 MAP 훈련을 통해 얻은 하나의 가중치 집합을 점 추정치로 사용하므로, 근사적인 불확실성 정량화(UQ) 기법이 필요합니다[15,16]. 일반적인 NN‑UQ 기법은 모델 사후를 근사하거나, 예측 신뢰도의 프록시가 될 수 있는 양을 추정하는 방식으로 구현됩니다.

베이지안 신경망[17], Monte‑Carlo 드롭아웃[18], Deep Ensembles[7] 등은 가중치 사후를 근사하는 전형적인 전략입니다.
Mean‑Variance Estimation (MVE)[19‑21]이나 잠재공간 거리 기반 메트릭(예: Conformal Prediction[22‑24])은 계산 비용을 낮추는 대안입니다.
MLIP 분야에서는 독립적으로 훈련된 전체 앙상블이 견고함과 단순성 때문에 자주 사용됩니다[10].

DPOSE: 얕은 앙상블의 직접 전파

최근 우리는 “Direct Propagation of Shallow Ensembles”(DPOSE) 방식을 제안했습니다[25]. DPOSE는 모든 아키텍처에 적용 가능하고 구현 복잡도가 낮으며, 정확도와 평가 비용 사이에서 좋은 균형을 이룹니다. 핵심 아이디어는 모델 백본을 공유하고 마지막 레이어만 앙상블하는 것으로, 모든 앙상블 멤버를 동시에 학습시키면서 가우시안 음수 로그우도(NLL) 손실을 사용한다는 점입니다. 이렇게 하면 불확실성 인식이 학습 과정에 내재되어, 추가적인 학습·평가 비용이 거의 들지 않으면서도 잘 보정된 불확실성 추정을 얻을 수 있습니다. DPOSE는 다음과 같은 다양한 분야에 성공적으로 적용되었습니다.

보편적인 MLIP인 PET‑MAD의 불확실성을 전파하여 융점 계산[26]
표면 촉매 활성 학습[27]
일반 유기 반응 모델링[28]
도메인 외 샘플 탐지[29]

LLPR: 마지막 레이어 강직성

다른 접근법으로는 Last Layer Prediction Rigidity (LLPR)[30‑32]가 있습니다. LLPR은 마지막 레이어 사후에 대한 라플라스 근사를 기반으로 하며, DPOSE와 달리 학습 후에 단일 MSE‑훈련된 MLIP에 적용됩니다. 초기 형태에서는 에너지와 같은 직접 예측값에만 적용되었지만, MACE‑MP0 기반 모델에 대해 힘(gradient)까지 확장되었습니다[33].

DPOSE는 처음에 힘 불확실성을 명시적으로 학습하도록 설계되지 않았음에도 불구하고, 신뢰할 만한 힘 추정을 제공할 가능성을 보였습니다. 그러나 힘 불확실성을 고려한 학습이 실제로 어떤 영향을 미치는지는 아직 검증되지 않았습니다. 두 방법 모두 “마지막 레이어 기반”이라는 공통점을 가지므로, 다음과 같은 질문이 자연스럽게 제기됩니다.

DPOSE는 LLPR이 목표로 하는 동일한 사후에 대한 Monte‑Carlo 근사에 불과한가?
불확실성 보정이 전체 모델의 학습된 특징(feature)에서 비롯되는가?
힘에 대한 확률적 손실을 도입하면, 에너지 손실에 비해 고비용의 Jacobian 계산이 필요하므로 효율적인 학습 방법이 필요한가?

연구 목표 및 주요 결과

본 연구에서는 신경망 기반 MLIP에 대한 DPOSE 학습 전략의 설계 공간을 탐색하고, 얕은 앙상블과 LLPR 불확실성의 품질을 비교했습니다. 또한 잘 보정된 힘 불확실성을 얻기 위해 필요한 단계들을 논의하고, 효율적인 불확실성 인식 포텐셜을 훈련하기 위한 실용적인 권장사항을 제시합니다.

1. 인터아토믹 포텐셜의 기본식

MLIP은 전체 포텐셜 에너지 (E(A,\theta)) 를 원자별 기여 (\varepsilon(A_i,\theta)) 로 분해합니다[34]:

[ E(A,\theta)=\sum_{i}\varepsilon(A_i,\theta) ]

여기서 (A_i)는 원자 (i)의 국부 환경, (\theta)는 학습 가능한 파라미터입니다. 원자 힘 (F_i)는 에너지의 좌표에 대한 음의 기울기로 얻어집니다:

[ F_i=-\nabla_{r_i}E(A,\theta) ]

다양한 아키텍처가 (A_i)를 인코딩하는 방식은 다르지만, 본 연구에서 사용한 모델들은 공통적인 구조적 모티프를 공유합니다.

거리 기반 기저함수를 사용해 구형 절단 반경 내의 원자 간 거리를 전개
필요에 따라 각도·다체 디스크립터와 (비)선형 변환을 추가해 복잡한 환경을 표현[35,36]

최종 원자 에너지는 선형 리드아웃 레이어를 통해 예측됩니다:

[ \varepsilon(A_i,\theta)=\mathbf{w}^\top h_i + b ]

여기서 (h_i)는 학습된 특징 표현, (\mathbf{w},b)는 마지막 레이어 가중치와 편향입니다.

2. 사용 모델

Gaussian Moment Neural Networks (GMNN)[37,38] – apax 패키지[39]를 통해 효율적으로 구현
So3krates[40]와 NequIP‑style(EquivMP)[41] – 선택된 데이터셋에서 아키텍처 전이성을 검증하기 위해 추가 실험 수행
모든 학습·평가 파이프라인은 IPSuite[42]를 사용

3. 베이지안 관점에서의 불확실성 정량화

베이지안 관점에서는 모델 파라미터 (\theta)를 확률 변수로 보고, 목표 변수 (y)에 대한 예측 분포는 파라미터에 대한 적분으로 정의됩니다. 깊은 신경망에서는 이 적분이 계산적으로 불가능하므로, Stochastic Gradient MCMC[43,44] 등 근사 방법이 사용됩니다.

가장 흔한 실용적 방법은 독립적으로 훈련된 모델들의 앙상블이며, 이는 비볼록 최적화 문제에서 서로 다른 초기화가 서로 다른 로컬 최소점에 수렴하게 함으로써 구현됩니다[45,46]. 각 모델이 제공하는 예측 (y^{(k)}(A))의 평균과 분산은 다음과 같이 계산됩니다:

[ \bar{y}(A)=\frac{1}{n_{\text{ens}}}\sum_{k} y^{(k)}(A),\qquad \sigma^2(A)=\frac{1}{n_{\text{ens}}-1}\sum_{k}\bigl(y^{(k)}(A)-\bar{y}(A)\bigr)^2 ]

하지만 전체 앙상블은 훈련·추론 비용이 (n_{\text{ens}})배 증가하므로, 원자 규모 시뮬레이션에서는 실용적이지 않을 수 있습니다.

4. 마지막 레이어 근사와 DPOSE

DPOSE는 마지막 레이어만 얕게 앙상블하고, 전체 백본을 공유함으로써 비용을 크게 절감합니다. 구체적으로는 다음 손실을 최소화합니다:

[ \mathcal{L}{\text{NLL}} = \sum{A\in\mathcal{D}} \Bigl[ \frac{(y(A)-\mu(A))^2}{2\sigma^2(A)} + \frac{1}{2}\log\sigma^2(A) \Bigr] ]

여기서 (\mu(A))와 (\sigma^2(A))는 각각 앙상블 평균과 분산이며, 모든 파라미터가 동시 최적화됩니다. 에너지와 같은 순방향 속성에 대해서는 마지막 레이어 읽기 비용만 추가되므로 거의 비용이 들지 않습니다.

5. LLPR의 라플라스 근사

LLPR은 단일 모델(MSE‑훈련)에서 마지막 레이어 가중치 (\theta_{\text{LL}})의 사후를 라플라스 근사합니다. MAP 해 (\theta_{\text{MAP}}) 주변을 2차 테일러 전개하면

[ p(\theta_{\text{LL}}|D) \approx \mathcal{N}\bigl(\theta_{\text{MAP}},;\Sigma_{\text{LL}}\bigr),\qquad \Sigma_{\text{LL}} = \bigl(H + \alpha I + \eta^2 I\bigr)^{-1} ]

여기서 (H)는 Generalized Gauss‑Newton 근사, (\alpha)는 보정 스칼라, (\eta^2)는 정규화 항입니다. 이 근사를 이용해 쿼리 구조 (A\

ArXiv 원문 보기

이 글은 AI가 자동 번역 및 요약한 내용입니다.

“얕은 앙상블을 효율적으로 훈련시키는 비법: 에너지·힘 불확실성 정밀 보정”

📝 Abstract

💡 Analysis

1. 연구 배경 및 필요성

2. 핵심 아이디어

3. 실험 설계 및 비교

4. 주요 결과

5. 의의 및 기여

6. 한계 및 향후 연구 방향

7. 실무 적용 가이드 (요약)

📄 Content

신경망 기반 ML 모델의 특성

DPOSE: 얕은 앙상블의 직접 전파

LLPR: 마지막 레이어 강직성

연구 목표 및 주요 결과

1. 인터아토믹 포텐셜의 기본식

2. 사용 모델

3. 베이지안 관점에서의 불확실성 정량화

4. 마지막 레이어 근사와 DPOSE

5. LLPR의 라플라스 근사

목차

목차

📝 Abstract

💡 Analysis

1. 연구 배경 및 필요성

2. 핵심 아이디어

3. 실험 설계 및 비교

4. 주요 결과

5. 의의 및 기여

6. 한계 및 향후 연구 방향

7. 실무 적용 가이드 (요약)

📄 Content

신경망 기반 ML 모델의 특성

DPOSE: 얕은 앙상블의 직접 전파

LLPR: 마지막 레이어 강직성

연구 목표 및 주요 결과

1. 인터아토믹 포텐셜의 기본식

2. 사용 모델

3. 베이지안 관점에서의 불확실성 정량화

4. 마지막 레이어 근사와 DPOSE

5. LLPR의 라플라스 근사

검색 시작

검색 결과 없음