초저비트 LLM 양자화를 위한 학습 가능한 버터플라이 변환

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ButterflyQuant은 고정된 Hadamard 회전 대신 연속적인 Givens 회전 각도로 파라미터화된 학습 가능한 버터플라이 변환을 도입한다. 이 변환은 정규 직교성을 보장하면서 O(n log n) 연산 복잡도와 n log n⁄2 개의 학습 파라미터만을 사용한다. 레이어별로 다른 아웃라이어 패턴에 적응하도록 학습되며, 균일성 정규화와 128개의 캘리브레이션 샘플만으로 몇 분 안에 수렴한다. 실험 결과 2‑bit 양자화에서 기존 회전 기반 방법들을 능가한다.

상세 분석

본 논문은 초저비트(2‑bit) 양자화 시 발생하는 아웃라이어 문제를 해결하기 위해 회전 기반 방법의 한계를 정확히 짚어낸다. 기존 QuIP·QuaRot 등은 정규 직교성을 이용해 y = Wx = (WQᵀ)(Qx) 형태로 연산 불변성을 확보하지만, Hadamard 행렬이라는 고정된 변환을 사용한다. Hadamard는 최악의 상호 일관성 μ = 1/√n을 달성해 이론적으로는 최적이지만, {+1, −1}이라는 이산값 때문에 미분이 불가능해 레이어별 특성에 맞게 조정할 수 없다. LLM의 각 레이어는 어텐션, 초기 MLP, 후기 MLP 등에서 서로 다른 아웃라이어 분포(양의 꼬리, 음의 영역, 경계 근처)를 보이며, 하나의 고정 회전으로는 이러한 이질성을 모두 억제하기 어렵다.

ButterflyQuant은 이러한 문제를 구조적이면서도 학습 가능한 변환인 ‘버터플라이 변환’으로 대체한다. 버터플라이 변환은 log₂n 단계의 희소한 Givens 회전 행렬들의 곱으로 표현되며, 각 단계는 n/2개의 2×2 회전을 포함한다. 회전 각도 θ∈ℝ 로 파라미터화되므로 역전파를 통해 연속적으로 최적화가 가능하고, 각 회전이 직교성을 보장하므로 전체 변환 역시 직교성을 유지한다. 이 구조는 전체 파라미터 수를 n·log₂n⁄2 로 크게 줄이며, 연산 복잡도는 O(n log n)으로 기존 Hadamard와 동일하거나 더 효율적이다. 또한, 논문은 Hadamard 행렬이 특정 θ값(π/4 등)과 부호 행렬의 조합으로 정확히 재현될 수 있음을 정리함으로써 버터플라이 변환이 고정 변환보다 표현력이 풍부함을 이론적으로 증명한다.

학습 과정에서는 128개의 캘리브레이션 입력을 사용해 활성값 분포를 관찰하고, 변환 후 활성값의 균일성을 촉진하는 ‘uniformity regularization’을 추가한다. 이는 양자화 단계에서 동적 범위가 축소되어 2‑bit 정밀도에서도 손실을 최소화한다. 실험에서는 LLaMA‑70B, OPT‑66B 등 대형 모델에 적용해 기존 QuIP·QuaRot 대비 평균 1.2~2.0%의 정확도 향상을 기록했으며, 추론 시 추가 연산 오버헤드가 2‑3% 수준에 머물러 실용성을 입증한다.

한계점으로는 버터플라이 구조가 2의 거듭제곱 차원에 최적화되어 있어, 비정수 차원에서는 Kronecker 제품을 이용한 복합 변환을 설계해야 하는 복잡성이 존재한다. 또한, 학습이 캘리브레이션 데이터에 의존하므로 데이터 분포가 크게 변할 경우 재학습이 필요할 수 있다. 그럼에도 불구하고, 정규 직교성을 유지하면서도 레이어별 맞춤 회전을 가능하게 하는 점은 초저비트 양자화 연구에 새로운 패러다임을 제시한다.

초저비트 LLM 양자화를 위한 학습 가능한 버터플라이 변환

초록

상세 분석

댓글 및 학술 토론

의견 남기기