LoRA만으로 안전한 추론 LLM 만들기
초록
본 논문은 추론 능력을 갖춘 대형 언어모델(LLM)에 안전 정렬을 적용할 때 발생하는 “Safety Tax”(안전 비용)를 LoRA(Low‑Rank Adaptation) 기법으로 크게 완화할 수 있음을 보인다. 안전 데이터셋(Refusal 데이터)으로 SFT를 수행하되 전체 파라미터가 아닌 저‑랭크 매트릭스만 업데이트하면, 기존 전체 모델 정렬 대비 안전성은 비슷하면서도 추론 성능은 거의 손실되지 않는다. 실험은 7‑14B 규모의 Qwen·Llama 모델, 두 개의 안전 벤치마크, 네 개의 추론 벤치마크에 걸쳐 일관된 결과를 보여준다. 또한 랭크‑1 업데이트, MLP up‑projection만 적용, 중간 레이어 중심 적용이 최적임을 확인하고, 이 현상을 “안전 행동은 저‑랭크 서브스페이스에 집중돼 있다”는 가설과 이론적 분석으로 뒷받침한다.
상세 분석
이 논문은 최근 추론‑전문 LLM이 고성능을 보이면서도 안전성 문제가 크게 부각되는 상황을 정확히 짚어낸다. 기존 연구에서는 추론 파인튜닝 후 별도의 안전 정렬 단계(주로 전체 파라미터 업데이트)를 적용했지만, 이는 “Safety Tax”라 불리는 추론 성능 저하를 초래한다. 저자들은 안전 행동이 모델 내부에서 소수의 저‑랭크 방향(활성화 혹은 가중치 공간)으로 표현된다는 최신 증거를 활용한다. 따라서 전체 파라미터를 고랭크로 수정하면 불필요하게 많은 차원을 방해해 추론 능력이 손상된다는 논리다.
핵심 아이디어는 LoRA를 이용해 안전 정렬을 저‑랭크(특히 rank‑1) 업데이트로 제한하는 것이다. LoRA는 기존 가중치를 고정하고, 두 개의 저‑랭크 행렬 A, B를 삽입해 ΔW = α·B·A 형태로 가중치를 변형한다. 이렇게 하면 파라미터 수는 극소화되고, 업데이트가 제한된 서브스페이스에 머무르므로 기존 추론에 필요한 고‑차원 구조를 보존한다.
실험 설계는 다음과 같다. (1) 모델: DeepSeek‑R1‑Distill‑Qwen‑7B, Qwen‑14B, Llama‑8B 등 두 아키텍처와 세 규모. (2) 안전 데이터: DirectRefusal(해로운 요청‑거부 쌍)와 StrongREJECT, BeaverTails 두 평가셋. (3) 추론 벤치마크: AIME, GPQA, HumanEval+, MBPP+ 등 수학·과학·코드 4종. (4) 비교: 전체 모델 파인튜닝(5 epoch) vs. LoRA 파인튜닝(10 epoch, 기본 rank‑1, MLP up‑projection에만 적용).
결과는 눈에 띈다. 전체 모델 파인튜닝은 안전성은 크게 향상되지만 Pass@1 점수가 평균 5‑10% 감소한다. 반면 LoRA는 안전 점수(해로운 응답 비율)를 거의 동일하게 낮추면서, 추론 점수는 원본 추론‑튜닝 모델에 98‑100% 근접한다. 특히 rank‑1 업데이트가 가장 효율적이며, 더 높은 rank를 사용하면 오히려 “overshoot” 현상이 발생해 기본 능력이 서서히 감소한다. 이는 이론 섹션에서 제시한 “intrinsic dimensionality” 개념과 일치한다.
구조적 분석에서는 MLP의 up‑projection 레이어만 업데이트하는 것이 전체 MLP 혹은 attention 레이어 전체를 업데이트하는 것보다 뛰어나다는 점을 발견했다. 이는 up‑projection이 활성화 흐름을 크게 재조정하면서도 핵심 가중치(특히 down‑projection, gate)는 그대로 유지해 추론 로직을 보존하기 때문이다. 또한 중간 레이어(예: 16~32번째 레이어)만 선택적으로 LoRA를 적용해도 충분히 안전-추론 트레이드오프를 최적화할 수 있었으며, 이는 기존 연구가 “해로운 표현은 중간 레이어에 집중된다”는 주장과도 일맥상통한다.
이론적 분석에서는 선형 회귀 모델을 이용해 베이스 작업(추론)과 파인튜닝 작업(안전) 사이의 차원을 정량화한다. 전체 모델 파인튜닝은 베이스 작업의 고차원 성분을 무시하고 파인튜닝 목표에만 맞추어 버리므로 베이스 성능이 급격히 감소한다. 반면 LoRA는 파인튜닝 목표 차원을 r (rank) 이하로 제한하면, 베이스 작업의 고차원 성분을 그대로 유지한다. r가 과도하게 크면 “overshoot”이 발생해 베이스 작업 손실이 intrinsic dimension⁻¹ 비율로 증가한다는 식을 도출한다. 실험적으로는 안전 파인튜닝이 저‑랭크(≈1~2)임을 확인했으며, 베이스 추론 능력은 고‑차원(수천 차원)이라 손실이 거의 없었다.
마지막으로, 동일한 LoRA 접근법을 instruction‑tuned 모델에 적용했을 때는 효과가 미미했는데, 이는 instruction‑following 자체가 상대적으로 저‑차원 작업이라 베이스와 파인튜닝 차원이 겹쳐 “Safety Tax”가 자연스럽게 발생하기 때문이다. 따라서 논문의 핵심 결론은 “안전 정렬이 저‑랭크 서브스페이스에 국한될 때, LoRA는 안전성은 확보하고 추론 성능은 거의 손실 없이 유지한다”는 것이다. 이 결과는 비용 효율적인 안전 정렬 방법을 찾는 실무자와, 고성능 추론 LLM을 안전하게 배포하려는 연구자 모두에게 큰 의미를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기