편향 완화 저차원 적응으로 대형 언어 모델의 재앙적 상속 방지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

BA‑LoRA는 LoRA 기반 파라미터 효율 적응에 편향·노이즈·불균형을 증폭시키는 “재앙적 상속” 문제를 해결하기 위해 설계된 방법이다. 사전 학습 지식을 보존하는 일관성 정규화, 출력 다양성을 유지하는 다양성 정규화, 그리고 저‑랭크 출력 구조를 강제하는 SVD 정규화를 결합한다. LLaMA‑2‑7B와 DeBERTa‑v3‑base을 대상으로 GLUE, 수학·코딩·대화 생성 등 다양한 NLU·NLG 벤치마크에서 기존 LoRA 변형보다 성능·안정성·편향 완화 측면에서 우수함을 입증한다.

상세 분석

본 논문은 파라미터 효율 적응(PEFT) 기법인 LoRA가 사전 학습 단계에서 내재된 편향·노이즈·데이터 불균형을 그대로 전달할 뿐 아니라, 저차원 어댑터라는 병목 구조 때문에 이러한 결함을 오히려 증폭시킬 수 있다는 “Catastrophic Inheritance” 현상을 지적한다. 이를 해결하기 위해 저자들은 Catastrophic Inheritance를 Knowledge Drift(지식 흐트러짐), Representation Collapse(표현 붕괴), Overfitting to Noise(노이즈 과적합)라는 세 가지 핵심 실패 모드로 분해하고, 각각에 대응하는 정규화 항을 설계하였다.

Consistency Regularization (일관성 정규화)
- Knowledge Drift를 방지하기 위해 사전 학습 모델을 교사(teacher)로 삼고, 온도 스케일링된 KL 발산을 최소화한다. NLU에서는 전체 배치 로그잇에 대해, NLG에서는 토큰 단위 시퀀스에 대해 적용한다. 이는 파인튜닝 중에도 사전 모델의 미세한 의사결정 패턴을 유지하도록 유도한다.
Diversity Regularization (다양성 정규화)
- Representation Collapse를 방지하기 위해 배치 내 출력 로그잇의 공분산 행렬을 계산하고, 비대각 성분을 최소화한다. NLU에서는 클래스 간 상관관계를 감소시켜 소수 클래스가 사라지는 현상을 억제하고, NLG에서는 Top‑K 후보 토큰 집합 내 엔트로피를 최대화함으로써 텍스트 생성의 다양성을 확보한다.
SVD‑based Regularization (SVD 정규화)
- Overfitting to Noise를 완화하기 위해 출력 로그잇 행렬의 스펙트럴 에너지를 상위 k개의 특이값에 집중하도록 유도한다. NLU에서는 정확한 SVD를, NLG에서는 대규모 어휘를 고려해 랜덤화된 SVD와 Frobenius 정규화를 결합한다. 이는 모델이 고주파 노이즈보다 핵심 패턴에 집중하도록 만든다.

또한, 저자들은 PiSSA 초기화 방식을 차용해 사전 가중치의 주성분을 어댑터 A·B에 할당하고, 나머지 잔차 행렬을 고정함으로써 초기 단계부터 중요한 파라미터에 집중하도록 설계했다. 정규화 가중치 λ₁, λ₂, λ₃는 각각 0.025/0.005/0.005(NLG)와 0.15/0.03/0.03(NLU)로 설정했으며, SVD rank k는 NLG 10, NLU 5로 지정하였다.

실험 결과는 세 가지 측면에서 기존 LoRA 변형을 능가한다. 첫째, GLUE와 같은 NLU 벤치마크에서 평균 정확도 향상이 1.2~~2.3%p에 달한다. 둘째, LLaMA‑2‑7B 기반의 수학·코딩·대화 생성 과제에서 BLEU, ROUGE, CodeBLEU 등 다양한 메트릭에서 2~~4%p의 개선을 보였다. 셋째, 편향 평가(예: 성별·인종 스테레오타입 테스트)와 노이즈 강건성 테스트에서 BA‑LoRA는 기존 LoRA 대비 편향 점수가 평균 15% 감소하고, 노이즈가 섞인 데이터셋에서도 성능 저하가 현저히 적었다. Ablation study는 세 정규화 항이 각각 독립적으로 효과가 있음을 확인했으며, 특히 SVD 정규화가 노이즈에 대한 강건성을 크게 향상시켰다.

이러한 설계는 저차원 어댑터가 가진 표현 제한을 정규화로 보완함으로써, 파인튜닝 시 사전 지식 보존과 새로운 과제 적응 사이의 트레이드오프를 완화한다는 중요한 통찰을 제공한다. 또한, 편향·노이즈 완화가 모델의 전반적 일반화 능력과 공정성에 직접적인 이점을 주는 실증적 근거를 제시한다.

편향 완화 저차원 적응으로 대형 언어 모델의 재앙적 상속 방지

초록

상세 분석

댓글 및 학술 토론

의견 남기기