초저비트 양자화로 LLM을 0.1비트까지 압축하는 LittleBit

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LittleBit은 저랭크 행렬 분해와 다중 스케일 보정, Dual‑SVID 초기화 및 Residual Compensation을 결합해 LLM을 0.1 bits per weight까지 양자화한다. 31배 메모리 절감과 FP16 대비 11.6배 추론 가속을 달성하면서 Llama2‑13B를 0.9 GB 이하로 압축한다.

상세 분석

본 논문은 대규모 언어 모델(LLM)의 메모리·연산 부담을 극단적인 저비트 양자화로 해소하고자 한다. 핵심 아이디어는 가중치 행렬을 저랭크(latent) 행렬 분해 (W≈UV^{\top}) 로 표현한 뒤, 각각의 요인 (U, V) 를 이진화(±1)하고 행·열·잠재 차원에 대한 FP16 스케일 (h, g, \ell) 을 학습한다. 이렇게 하면 원래의 고정밀 GEMM을 두 개의 작은 이진 매트릭스 곱과 요소‑와이즈 스케일링으로 대체할 수 있어 연산량과 메모리 사용량이 크게 감소한다.

양자화 초기화 문제를 해결하기 위해 Dual‑SVID를 제안한다. 먼저 전체 가중치를 SVD로 저랭크 근사하고, 절단된 (U’, V’) 의 부호를 이진 요인 (U_{\text{sign}}, V_{\text{sign}}) 로 그대로 사용한다. 절대값 (|U’|, |V’|) 에 대해 각각 rank‑1 근사를 수행해 행 스케일 (h_0), 열 스케일 (g_0) 와 잠재 스케일 (\ell_0) 을 얻는다. 이렇게 하면 초기 (cW_{\text{pri},0}=diag(h_0)U_{\text{sign}}diag(\ell_0)V_{\text{sign}}^{\top}diag(g_0)) 가 원본 가중치와 매우 근접하게 된다.

극단적인 압축에서 발생하는 근사 오차를 보정하기 위해 Residual Compensation을 도입한다. 기본 경로 (cW_{\text{pri}}) 로 설명되지 못한 잔차 (W_{\text{res}}=W-cW_{\text{pri},0}) 를 또 다른 저랭크·이진 경로 (cW_{\text{res}}) 로 모델링한다. 두 경로는 동일한 구조와 스케일 파라미터를 갖고, 각각 Dual‑SVID로 초기화된다. 학습 과정에서 두 경로를 동시에 최적화함으로써 전체 가중치 (cW=cW_{\text{pri}}+cW_{\text{res}}) 가 원본을 정확히 재현하도록 한다.

실험에서는 Llama2‑13B, Llama2‑7B, 32B 규모 모델을 대상으로 0.1 ~ 0.7 BPW 구간을 평가했다. 0.1 BPW에서 LittleBit은 기존 최첨단 STBLLM(0.55 BPW)보다 퍼플렉시티가 4.9 → 4.8 수준으로 우수했으며, 0.3 BPW에서는 32B 모델이 0.7 BPW 수준의 성능을 유지했다. 메모리 측면에서는 31배 압축, 추론 속도는 FP16 대비 11.6배 가속을 보고했다. Ablation 연구에서는 Dual‑SVID 없이 초기화하면 훈련이 불안정해지고, Residual Compensation을 제거하면 0.1 BPW에서 퍼플렉시티가 급격히 악화되는 것을 확인했다.

한계점으로는 저랭크 차원 (r) 의 선택이 모델마다 민감하고, 이진화된 요인에 대한 하드웨어 지원이 아직 제한적이다. 또한, 현재는 Transformer의 선형 계층에만 적용되며, attention 스코어 자체를 이진화하는 확장은 추가 연구가 필요하다.

초저비트 양자화로 LLM을 0.1비트까지 압축하는 LittleBit

초록

상세 분석

댓글 및 학술 토론

의견 남기기