베이지안 로라: 대형 언어 모델을 위한 확률적 저랭크 적응
초록
베이지안‑LoRA는 기존 LoRA의 결정적 저랭크 업데이트를 확률적 형태로 재구성해, 작은 데이터셋에서 파인튜닝 시 발생하는 과신 문제를 완화한다. Sparse Gaussian Process의 Kronecker‑분해 구조와 LoRA의 행렬 분해 사이에 기능적 동형성을 찾아, 변분 추론과 정규화 흐름을 결합한 ELBO 최적화를 통해 0.42 M 파라미터만 추가하고 학습 비용을 1.2배로 늘리는 수준에서 모델의 캘리브레이션을 크게 개선한다. 실험 결과 30 B 규모 모델에서도 ECE를 최대 84 %, NLL을 최대 76 % 감소시키면서 정확도는 유지한다.
상세 분석
베이지안‑LoRA는 LoRA가 사용하던 저랭크 행렬 ΔW = α B A 를 확률적 변수로 전환한다는 점에서 혁신적이다. 논문은 Sparse Gaussian Process(SGP)에서 사용되는 Kronecker‑분해 사후분포 p(W|U) 의 평균 M_W(U) = T_r U T_c 와 LoRA의 B 와 A 가 각각 T_r, T_c 에 대응한다는 구조적 동형성을 제시한다. 여기서 U 는 r × c 차원의 유도 변수이며, 행·열 공분산 K_r, K_c 를 학습 가능한 파라미터로 두어 T_r, T_c 를 정의한다.
베이지안‑LoRA는 U 에 대해 행렬‑정규(또는 대각‑가우시안) 사전 p(U)와 변분 사후 q(U) 를 두고, 변분 ELBO를 최적화한다. 변분 사후는 기본 가우시안에 정규화 흐름(T_ϕ)을 적용해 표현력을 높이며, MAF와 같은 경량 흐름을 사용해 Jacobian determinant를 효율적으로 계산한다. 중요한 점은 q(U) 와 p(U) 사이의 KL 항이 U 의 차원에 독립적인 닫힌 형태를 갖고, 조건부 KL KL(q(W|U)||p(W|U)) 도 U 에 의존하지 않아 계산 비용이 크게 증가하지 않는다.
학습 단계에서는 Monte‑Carlo 샘플링을 통해 U 를 여러 번 추출하고, 각 샘플에 대해 ΔW = T_r U T_c 를 계산해 전방 전달에 사용한다. 이렇게 얻은 ΔW 의 분산이 모델의 에피스틱 불확실성을 직접 반영한다. 논문은 또한 q(U) 가 점질(δ) 분포이고 λ→0 (조건부 노이즈가 사라짐)일 때, 베이지안‑LoRA가 기존 LoRA와 동일한 결정적 업데이트로 수렴함을 정리로 증명한다.
실험에서는 LLaMA‑2‑7B, Qwen2.5‑14B‑Instruct, Qwen3‑30B‑A3B 등 다양한 규모의 LLM에 동일한 LoRA rank r = c = 9 를 적용했다. 베이지안‑LoRA는 평균 정확도는 기존 LoRA와 비슷하거나 약간 상승하면서, Expected Calibration Error(ECE)를 30 %~84 % 감소시키고, Negative Log‑Likelihood(NLL)를 20 %~76 % 낮추었다. 특히, out‑of‑distribution(OoD) 평가에서 캘리브레이션이 크게 유지되는 점이 주목할 만하다. 비용 측면에서는 추가 파라미터가 0.42 M에 불과하고, 학습 시간은 약 1.2배 증가에 그쳐, 기존 PEFT 방법과 비교해 실용적인 오버헤드만을 요구한다.
베이지안‑LoRA는 기존 LoRA가 제공하는 파라미터 효율성을 유지하면서, 확률적 추론을 통해 모델의 불확실성 추정과 캘리브레이션을 동시에 개선한다는 점에서, 대규모 언어 모델을 안전-critical 분야에 적용하려는 연구자와 엔지니어에게 중요한 도구가 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기