다변량 베이지안 라스트 레이어 회귀와 불확실성 분해를 위한 EM 기반 프레임워크
초록
본 논문은 다변량 회귀 문제에서 이질적(heteroscedastic) 잡음을 고려한 베이지안 라스트 레이어(BLL) 모델을 제안한다. 행렬 정규 및 행렬‑T 분포를 이용해 마지막 레이어의 가중치를 베이지안화하고, 증거 최대화(Evidence Maximization)와 EM 알고리즘을 통해 하이퍼파라미터와 딥 네트워크 파라미터를 효율적으로 학습한다. 제안 모델은 단일 순전파만으로 알레아토릭(데이터 내재)과 에피스톨릭(모델) 불확실성을 명확히 분리·정량화하며, 사전 학습된 네트워크에 전이학습 형태로 적용할 수 있다. 실험은 합성 데이터, 전이학습 시나리오, UCI 벤치마크에서 기존 방법보다 정확도와 불확실성 캘리브레이션 측면에서 우수함을 보인다.
상세 분석
이 논문은 현대 딥러닝 모델에 베이지안 추론을 도입하는 비용을 최소화하면서도 신뢰할 수 있는 불확실성 추정이라는 두 마리 토끼를 잡는다. 핵심 아이디어는 네트워크의 비선형 부분을 완전히 결정론적으로 학습하고, 마지막 선형 레이어만을 행렬‑정규(MVN) 혹은 행렬‑T 분포로 베이지안화하는 것이다. 이렇게 하면 사후분포가 닫힌 형태로 얻어지므로 샘플링이나 복잡한 변분 추정 없이도 단일 순전파만으로 예측 평균과 공분산을 계산할 수 있다. 특히, 이질적 잡음 σ(x)·ε 를 명시적으로 모델링함으로써 입력마다 다른 알레아토릭 변동성을 포착한다.
저자는 증거(마진 가능도)를 직접 최적화하는 것이 하이퍼파라미터(M, K, V 등)를 MLE로 수렴시켜 과적합을 초래한다는 점을 이론적으로 증명하고, 이를 방지하기 위해 평균을 고정하거나 공분산에 하이퍼프리어를 도입하는 안정화 전략을 제시한다. 또한, EM 알고리즘을 설계해 E‑스텝에서 현재 파라미터에 대한 사후 평균·공분산을 계산하고, M‑스텝에서 DNN 파라미터와 하이퍼파라미터를 교대로 업데이트한다. 이 과정은 미니배치 SGD와 호환되며, 특히 전이학습 상황에서 사전 학습된 피처 φ와 σ를 고정하고 라스트 레이어만 재학습함으로써 빠른 적응이 가능하도록 설계되었다.
불확실성 분해 측면에서는, 사후 평균이 에피스톨릭 불확실성을, 사후 공분산에 포함된 입력 의존적 잡음 스케일 σ(x)와 V가 알레아토릭 불확실성을 담당한다는 명확한 해석을 제공한다. 이는 기존 Monte‑Carlo Dropout이나 앙상블 방식이 제공하는 불확실성 추정과 달리, 수학적으로 근거가 있는 분해이며, 예측 구간의 캘리브레이션을 정량적으로 평가할 수 있다.
추가적으로, 행렬‑T 분포를 도입해 잡음 공분산 자체를 불확실성 변수로 모델링함으로써, 잡음이 관측되지 않은 상황에서도 보다 보수적인 예측을 가능하게 한다. 이 확장은 기존 정규 기반 BLL이 갖는 공분산 고정 가정의 한계를 넘어선다.
실험 결과는 합성 데이터에서 이질적 잡음 회복 능력을, 전이학습 실험에서 사전 학습된 이미지 분류기(ResNet 등)에 라스트 레이어만 베이지안화했을 때 불확실성 추정이 크게 향상됨을 보여준다. UCI 다변량 회귀 벤치마크에서도 RMSE와 NLL 모두 기존 DER, BNN, MC‑Dropout 대비 우수한 성능을 기록한다. 전반적으로, 이 논문은 베이지안 라스트 레이어를 다변량·이질적 잡음 상황에 확장하고, EM 기반 학습으로 실용성을 크게 높인 점에서 학계·산업 모두에 의미 있는 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기