마스크 파인튜닝으로 LLM 성능 한계 돌파
초록
본 논문은 완전 파인튜닝(FFT)된 대형 언어 모델에 가중치를 고정한 채 이진 마스크를 학습시켜 성능을 향상시키는 새로운 파인튜닝 기법인 Mask Fine‑Tuning(MFT)을 제안한다. 동일한 파인튜닝 데이터와 목표 함수를 사용하면서도 모델 구조의 일부를 의도적으로 제거함으로써, LLaMA2‑7B와 LLaMA3.1‑8B에서 IFEval 기준 평균 2.70·4.15점의 성능 향상을 달성한다. 실험은 수학, 코딩, 인스트럭션 등 다양한 도메인과 로컬·글로벌 마스크 전략을 포함한 상세한 소거 비율·층별 분석을 통해 MFT의 효과와 한계를 검증한다.
상세 분석
MFT는 기존 LLM 파인튜닝 흐름을 근본적으로 재구성한다. 사전 학습 → 완전 파인튜닝(FFT) → 마스크 파인튜닝이라는 3단계 파이프라인을 제시하며, 두 번째 단계에서 얻은 최적 파라미터 Θ_f를 고정하고 이진 마스크 M을 학습한다. 마스크는 Θ_f와 동일한 차원을 가지며, 요소별 곱(⊙)을 통해 선택적으로 가중치를 차단한다. 학습 목표는 기존 FFT와 동일한 로그우도 손실 L을 사용하되, 마스크가 적용된 파라미터 Θ_f⊙M을 입력으로 삼는다.
마스크 학습은 점수 c_d^l를 각 가중치에 할당하고, 사전 정의된 비율 K(예: 10 %)에 따라 상위 K% 점수를 가진 가중치만을 유지하도록 하는 비선형 함수 v(c)로 구현한다. v는 미분 불가능하므로, 직통( Straight‑Through) 그래디언트 추정기(Bengio et al., 2013)를 적용해 역전파 시 v를 항등 함수로 대체한다. 이를 통해 마스크는 손실에 대한 직접적인 그라디언트를 받으며, 학습 과정에서 불필요하거나 과적합을 유발하는 파라미터를 자동으로 식별한다.
실험 설계는 두 가지 백본(LLaMA2‑7B, LLaMA3.1‑8B)과 세 도메인(수학‑GSM8K·Meta‑Math, 코딩‑HumanEval·HumanEval+, 인스트럭션‑IF‑Eval·Alpaca‑Eval)을 포함한다. FFT는 도메인별 및 믹스업 두 전략으로 수행하고, MFT는 동일 데이터셋을 사용해 로컬 마스크(특정 층 그룹)와 글로벌 마스크(전체 모델) 두 방식으로 적용한다. 주요 비교 대상은 기본 프리트레인, FFT, LoRA, 연속 FFT/LoRA(과적합 검증), 무작위 마스크, L1 기반 마스크이다.
핵심 결과는 다음과 같다. (1) MFT는 최적 FFT 모델을 출발점으로 삼아 일관된 성능 향상을 제공한다. 특히 IFEval에서 LLaMA2‑7B는 +2.70점, LLaMA3.1‑8B는 +4.15점의 평균 상승을 보였다. (2) 로컬 마스크 실험에서 얕은 층(0‑7)과 중후반 층(20‑27)이 가장 큰 개선 효과를 보였으며, 4층 단위 그룹이 8층 그룹보다 세밀한 조정이 가능함을 확인했다. (3) 마스크 비율을 10 %에서 30 %까지 확대해도 성능 향상이 유지되었지만, 과도한 비율(>50 %)에서는 성능 저하가 관찰돼 적절한 희소도 선택이 중요함을 시사한다. (4) 무작위 마스크와 L1 마스크는 거의 효과가 없거나 오히려 성능을 감소시켰으며, 이는 MFT가 단순한 가중치 절삭이 아니라 손실 기반 중요도 판단에 기반한다는 점을 강조한다.
또한 MFT는 기존 파인튜닝 기법과 호환 가능하다. 예를 들어 LoRA와 결합하면 LoRA 파라미터는 그대로 유지하면서 마스크가 추가적인 성능 향상을 제공한다. 이는 MFT가 모델 압축을 위한 프루닝과는 근본적으로 다르며, “제거를 통한 증강”이라는 새로운 패러다임을 제시한다는 저자들의 주장과 일치한다. 마지막으로 손실 표면 분석에서는 마스크 적용 후 최적점이 기존 FFT보다 더 평탄하고 넓은 영역에 위치함을 확인해, MFT가 모델의 일반화 능력을 향상시킨다는 추가 증거를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기