작업별 양자화 LLM 숨겨진 표현 활용 혼합 정밀도 압축

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 특정 다운스트림 작업에 맞춰 대형 언어 모델(LLM)의 가중치를 혼합 정밀도로 양자화하는 새로운 프레임워크를 제안한다. 작은 비라벨 캘리브레이션 프롬프트 집합을 이용해 각 층의 중요도를 추정하고, 중요도가 높은 층에 높은 비트를 할당해 메모리·연산 예산 내에서 성능 저하를 최소화한다. 중요도 추정 방법으로는 정보‑안정성 기반 TAQ, 단일 층 양자화 민감도 측정 TAQO, 그리고 KL‑다이버전스 기반 TAQ‑KL을 제시한다. 다양한 코드·수학·지식 질문 작업에 대해 기존 PTQ 대비 동일하거나 향상된 정확도를 보이며, 작업‑특화 압축이 가능함을 실험적으로 입증한다.

상세 분석

이 연구는 LLM 양자화가 일반적으로 작업에 무관하게 전체 모델에 동일한 정밀도 정책을 적용한다는 한계를 지적한다. 실제로 여러 작업을 분석한 결과, 특정 층이 특정 과제에서 비정상적으로 높은 정보 엔트로피와 낮은 활성화 변동성을 보이며, 이는 해당 층이 해당 작업에 핵심적인 역할을 함을 시사한다. 저자들은 이러한 현상을 정량화하기 위해 세 가지 층 중요도 스코어링 방식을 설계하였다. 첫 번째 TAQ는 층별 활성화 행렬의 고유값 스펙트럼 엔트로피를 정보량으로, 활성화 분산을 안정성 지표로 사용해 가중 평균을 취한다. 두 번째 TAQO는 “오라클” 방식으로, 각 층을 순차적으로 4‑bit 양자화하고 즉시 작업 성능 저하를 측정해 민감도가 높은 층을 FP16으로 유지한다. 세 번째 TAQ‑KL은 양자화 오류를 가우시안 노이즈로 근사하고, 해당 노이즈가 출력 확률 분포에 미치는 KL‑다이버전스를 계산해 중요한 층을 식별한다. 이 세 신호는 서로 보완적이며, 실험에서는 특히 TAQ와 TAQ‑KL이 비라벨 캘리브레이션 데이터만으로도 충분히 신뢰할 만한 중요도 순위를 제공한다는 점이 강조된다. 예산 제약 하에서 층별 비트 할당은 간단한 정렬 후 상위 K%에 8‑bit, 나머지에 4‑bit을 부여하는 방식으로 구현되며, 임베딩·출력 층은 항상 FP16으로 보존한다. 실험에서는 Gemma‑2‑9B, Qwen2.5‑7B 등 공개 모델을 대상으로 코드 완성, 수학 추론, 트리비아 QA 등 세 가지 도메인에서 기존 GPTQ·AWQ와 비교했을 때 동일하거나 더 높은 정확도를 달성하였다. 특히 메모리 절감률이 30‑40%에 달하면서도 성능 저하가 거의 없거나 오히려 개선되는 현상이 관찰되었다. 이는 작업‑특화 양자화가 LLM의 내부 표현 흐름을 고려함으로써, 불필요한 정밀도 낭비를 줄이고 핵심 연산을 보호한다는 중요한 인사이트를 제공한다.

작업별 양자화 LLM 숨겨진 표현 활용 혼합 정밀도 압축

초록

상세 분석

댓글 및 학술 토론

의견 남기기