스테펠 베이지안 어댑터로 신뢰성 있는 파라미터 효율적 미세조정
초록
본 논문은 LoRA와 같은 파라미터 효율적 미세조정 방법에 베이지안 불확실성 추정을 도입한다. 적응 어댑터를 Stiefel 다양체 위의 정규 직교 행렬로 모델링하고, Matrix Langevin 사전분포와 접공간 라플라스 근사를 결합해 효율적인 사후 추정을 수행한다. 이 접근법은 기존 평면 가우시안 사전 대비 구조적 분산 팽창을 방지하고, 캘리브레이션 오류와 OOD 탐지 성능을 크게 개선한다.
상세 분석
이 연구는 대규모 언어 모델의 파라미터 효율적 미세조정(PeFT)에서 발생하는 불확실성 부재 문제를 근본적으로 해결한다는 점에서 의미가 크다. 기존 LoRA, DoRA 등은 저차원 업데이트를 통해 파라미터 비용을 절감하지만, 모두 점 추정에 머물러 있어 과신(over‑confidence) 문제가 심각하다. 저자들은 어댑터 행렬 B와 A를 단순히 저차원 행렬로 보는 것이 아니라, 그 열이 정규 직교성을 만족하는 Stiefel 다양체 St(k,d) 위의 점이라고 가정한다. 이는 어댑터가 실제로 “잘 조건화된” 저차원 서브스페이스를 학습한다는 경험적 관찰과 일치한다.
Stiefel 다양체 위에 Matrix Langevin(ML) 분포를 사전으로 두면, 사전의 매개변수 F의 특잇값이 사전 집중도를 직접 조절한다. F=0이면 균등(Haar) 사전이 되어 완전 무지 상태를, ‖F‖→∞이면 결정론적 어댑터에 수렴한다. 이렇게 연속적인 사전 조절이 가능함은 평면 가우시안 사전이 제공하지 못하는 장점이다.
사후 추정은 접공간 라플라스 근사를 사용한다. 먼저 Riemannian SGD로 MAP Û를 찾고, 그 접공간 T_{Û}St(k,d)에서 해시안 행렬 H를 계산한다. H는 K‑FAC으로 근사해 메모리와 연산량을 크게 줄인다. 이후 접공간에서 다변량 정규분포 N(0, −H^{-1})를 샘플링하고, QR 기반 지오데식 재트랙션 Retr_{Û}(·)을 통해 다시 다양체 위로 매핑한다. 이 과정은 “구조적 분산 팽창”(variance inflation)을 방지한다는 정리 1에 의해 이론적으로 보장된다. 즉, 평면 가우시안 사후를 다양체에 투사하면 접공간과 법선 공간이 혼합돼 불필요한 분산이 추가되지만, 접공간 라플라스는 오직 접공간 내 변동만을 허용한다.
실험에서는 RoBERTa‑large, LLaMA‑2‑7B/13B, Mistral‑7B, Qwen2.5‑7B 등 네 가지 모델군에 대해 GLUE·SuperGLUE, 도메인 이동, 선택적 예측(selective prediction), 추상 요약 등 다양한 태스크를 수행했다. 성능 측면에서는 LoRA·DoRA와 거의 동등하거나 약간 앞섰으며, Expected Calibration Error(ECE)를 1834 % 감소시켰다. 특히 도메인 이동 상황에서 선택적 예측 AUROC를 1225 % 향상시켰고, 5개 LoRA 모델을 앙상블한 딥 앙상블보다 적은 파라미터 비용으로 OOD 탐지에서 우수한 결과를 보였다.
또한, 사전 집중도 κ₀를 조절해 사전의 “확신 정도”를 조절함으로써, 데이터가 충분히 풍부하지 않은 상황에서도 과도한 확신을 억제하고, 데이터가 많을 때는 빠르게 수렴하도록 설계했다. 이와 같은 베이지안 적응은 사후 샘플링을 통해 예측 분포를 직접 얻을 수 있어, 온도 스케일링 같은 사후 보정 없이도 잘 캘리브레이션된 확률을 제공한다.
전체적으로 이 논문은 “어디에 불확실성을 두느냐”라는 질문에 대한 명확한 답을 제시한다. 기하학적 구조를 고려한 사전·사후 설계가 단순히 베이지안을 적용하는 것보다 훨씬 큰 이점을 제공한다는 점을 정리와 실험을 통해 설득력 있게 증명한다.
댓글 및 학술 토론
Loading comments...
의견 남기기