BatchEnsemble와 GRUBE로 효율적인 불확실성 추정 구현
초록
본 논문은 파라미터 효율성을 유지하면서도 높은 품질의 불확실성 추정을 제공하는 BatchEnsemble 방법을 탭ular 회귀·분류와 시계열 예측에 적용한다. 순환 구조에 BatchEnsemble을 접목한 GRUBE를 제안하고, MC‑Dropout 및 전통적인 Deep Ensemble과 비교 실험을 통해 BatchEnsemble가 비슷한 혹은 더 나은 예측·불확실성 성능을 보이며 파라미터와 연산량이 크게 감소함을 입증한다.
상세 분석
딥러닝 모델이 예측값만을 제공하고 불확실성 추정이 부실한 점은 안전‑중요 분야에서 큰 제약이 된다. 불확실성은 데이터 내재 노이즈를 나타내는 aleatoric과 모델 자체의 미확인성을 나타내는 epistemic으로 구분되며, 특히 epistemic은 OOD(Out‑of‑Distribution) 상황에서 신뢰성 판단에 핵심이다. 기존 베이지안 접근법은 이론적으로는 우수하지만 학습·추론 비용이 prohibitive해 실용성이 떨어진다. 이에 MC‑Dropout은 경량화된 베이지안 근사로 주목받았지만, 과신(over‑confidence) 문제가 지속된다. Deep Ensemble는 여러 독립 모델을 평균해 높은 캘리브레이션과 다양성을 제공하지만, 모델당 전체 파라미터를 복제하므로 메모리·연산 비용이 급증한다.
BatchEnsemble는 이러한 트레이드오프를 해결하기 위해 각 레이어마다 하나의 공유 가중치 행렬 W와 멤버별 작은 어댑터 벡터 r_k, s_k(및 선택적 bias b_k)를 도입한다. 입력을 어댑터 r_k로 element‑wise 스케일링하고, 출력에 s_k를 다시 스케일링함으로써 멤버마다 서로 다른 함수 공간을 탐색하면서도 파라미터 증가량을 O(p+q) 수준으로 억제한다. 이 구조는 벡터화된 연산으로 K개의 멤버를 한 번의 포워드·백워드 패스로 동시에 학습·추론할 수 있게 하여 GPU 활용 효율을 크게 높인다.
시계열 데이터에 BatchEnsemble를 적용하기 위해 저자들은 GRU 셀에 동일한 어댑터 메커니즘을 삽입한 GRUBE를 설계하였다. GRU의 세 가지 선형 변환 W_f, W_z, W_h에 각각 공유‑어댑터를 적용함으로써, 각 시점마다 K개의 히든 상태를 동시에 업데이트한다. 이는 순환 구조에서도 파라미터 효율성을 유지하면서 epistemic 다양성을 보존한다는 장점을 제공한다. 추론 시에는 각 멤버와 샘플 경로 S 개를 이용해 ancestral sampling을 수행, 예측 단계가 누적될수록 증가하는 불확실성을 정량화한다.
실험은 탭ular 회귀·분류(California Housing, Diabetes 등)와 시계열 예측(다중 변량 시계열) 데이터셋을 대상으로 진행되었다. 평가 지표는 예측 정확도(RMSE, 정확도), 전체 예측 분포를 평가하는 NLL·Brier score, 캘리브레이션을 측정하는 RMSCE·ECE, 그리고 선택적 예측을 통한 불확실성 순위화 성능을 포함한다. 또한 aleatoric·epistemic을 분해해 각 방법이 어느 부분을 주로 담당하는지도 분석하였다.
결과는 다음과 같다. (1) BatchEnsemble는 Deep Ensemble와 거의 동등한 NLL·Brier score를 기록하면서 파라미터 수는 510배, 학습·추론 시간은 23배 정도만 증가한다. (2) MC‑Dropout은 전반적으로 높은 NLL과 과신된 캘리브레이션 오류를 보이며, 특히 OOD 상황에서 성능 저하가 심각했다. (3) GRUBE는 시계열 예측에서 Deep Ensemble와 비슷하거나 더 낮은 RMSE와 NLL을 달성했으며, 불확실성 캘리브레이션 역시 경쟁 수준이었다. (4) 분포 이동 실험에서 BatchEnsemble와 Deep Ensemble는 RMSE와 NLL이 거의 유지되는 반면, MC‑Dropout과 단일 모델은 급격히 악화되었다. (5) 선택적 예측 곡선에서 BatchEnsemble는 높은 불확실성 점수를 가진 샘플을 효과적으로 제외함으로써, 제한된 예산 하에서 최상위 성능을 유지한다.
이러한 결과는 BatchEnsemble가 파라미터 효율성을 크게 개선하면서도 epistemic 다양성을 충분히 제공함을 시사한다. 특히 GRUBE는 순환 모델에 BatchEnsemble를 자연스럽게 통합함으로써, 시계열 예측에서도 기존 Deep Ensemble 수준의 불확실성 추정을 달성한다. 다만 어댑터 차원 p+q 에 대한 선택이 모델 용량과 불확실성 품질 사이의 트레이드오프에 영향을 미칠 수 있으며, 매우 큰 K값을 사용할 경우 메모리 병목이 발생할 가능성이 있다. 향후 연구에서는 어댑터 구조의 최적화와 비동기식 멤버 업데이트, 그리고 더 복잡한 시계열 구조(LSTM, Transformer)로의 확장이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기