대규모 추론 모델 압축, 어디까지 버틸까
초록
본 논문은 양자화·지식증류·프루닝 3가지 압축 기법이 대규모 추론 모델(LRM)의 추론 능력에 미치는 영향을 체계적으로 벤치마크하고, 차원별 가중치 중요도 해석을 통해 압축이 손상시키는 핵심 가중치를 규명한다. 2.51‑bit 동적 양자화가 원본 성능에 가장 가깝고, 가중치 수는 지식 기억에, 최종층 MLP 업프로젝션은 추론에 가장 중요한 역할을 한다는 점을 발견했다. 최종층 2% 가중치를 보호하면 평균 정확도가 6.57% 상승한다는 실용적 인사이트도 제공한다.
상세 분석
이 연구는 크게 두 축으로 분석을 전개한다. 첫 번째는 DeepSeek‑R1 계열 모델을 네 개의 추론 벤치마크(AIME 2024, FOLIO, Temporal Sequences, MuSiQue)에서 압축 전·후 성능을 비교한 것이다. 양자화는 Unsloth 동적 양자화(2.51 bit, 1.73 bit, 1.58 bit)와 A WQ, GPTQ, GPT‑AQ, ANY4/3 등 최신 4‑bit·3‑bit 방법을 적용했으며, 증류는 Llama‑70B, Qwen‑32B, Llama‑8B, Qwen‑7B 네 가지 distilled 모델을, 프루닝은 SparseGPT와 AlphaPruning을 50 % 희소도로 적용했다. 전체 평균 정확도 기준으로는 2.51‑bit 양자화가 가장 높은 점수를 기록했으며, 4‑bit 양자화는 대부분 원본과 동등한 성능을 유지했다. 반면 3‑bit 양자화와 50 % 프루닝은 급격히 성능이 떨어져 실용성이 낮았다. 특히 AIME 2024와 같은 고난이도 수학 추론에서 압축에 따른 성능 저하가 가장 크게 나타났다.
두 번째 축은 메카니컬 인터프리터블리티를 활용한 가중치 중요도 분석이다. 저자들은 “backtracking”, “uncertainty estimation”, “example testing”, “adding knowledge” 네 가지 추론 행동을 정의하고, 각 행동에 대한 토큰 시퀀스를 GPT‑4o로 라벨링했다. 이후 차이 평균(Difference‑of‑Means) 기법으로 각 선형 모듈의 스티어링 벡터를 추출하고, 어트리뷰션 패칭(attribution patching)으로 가중치‑행동 간 인과 관계를 정량화했다. 중요도 점수는 상대적 중요도(RI)로 정규화해, 압축 전후의 변화(importance shift)를 시각화하였다. 주요 발견은 다음과 같다. (1) 가중치 수 자체가 지식 기억(knowledge memorization)에 미치는 영향이 추론 능력보다 크다. 따라서 프루닝·증류는 파라메트릭 지식을 많이 필요로 하는 작업에서 위험하다. (2) 증류된 모델의 최종층 MLP.up‑proj 가중치가 전체 추론 행동 중 가장 높은 중요도를 보였으며, 이 매트릭스를 3‑bit으로 양자화하면 평균 정확도가 16.3 % 급감한다는 실험적 증거가 제시되었다. 이는 기존 압축 연구에서 “어디가 중요한가?”라는 질문에 대한 구체적 답을 제공한다. (3) 현재 양자화 기법은 최종층 모듈과 MLP.gate‑proj 를 과도하게 압축한다. 전체 가중치 중 2 %만이라도 정밀도를 보존(‘protect’)하면 평균 정확도가 6.57 % 상승하고, 최고 23.17 %까지 개선된다. 이는 양자화 설계 시 최종층에 대한 특별한 보호 전략이 필요함을 시사한다.
실험 재현성을 위해 코드와 데이터는 공개했으며, 추가 분석(프루닝 영향, 테스트‑타임 연산량, 다양한 모델 패밀리 적용 결과 등)은 부록에 상세히 기술했다. 전체적으로 이 논문은 압축 기법이 추론 모델에 미치는 미세한 구조적 변화를 정량화하고, 실용적인 압축 설계 가이드를 제공한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기