파동 변환 기반 초고정밀 1비트 사후 훈련 양자화 방법

우리는 대형 언어 모델(LLM)을 위한 파동 변환 강화 고정밀 1비트 사후 훈련 양자화 기법인 HBLLM을 제안한다. Haar 파동 변환을 활용해 가중치를 주파수 영역으로 분해함으로써 표현 용량을 확대하고, 양자화 충실도를 크게 향상시키면서도 부가 비용을 최소화한다. 본 방법은 두 가지 혁신적인 구조 인식 그룹화 전략을 포함한다: (1) 주파수 인식 다중

파동 변환 기반 초고정밀 1비트 사후 훈련 양자화 방법

초록

우리는 대형 언어 모델(LLM)을 위한 파동 변환 강화 고정밀 1비트 사후 훈련 양자화 기법인 HBLLM을 제안한다. Haar 파동 변환을 활용해 가중치를 주파수 영역으로 분해함으로써 표현 용량을 확대하고, 양자화 충실도를 크게 향상시키면서도 부가 비용을 최소화한다. 본 방법은 두 가지 혁신적인 구조 인식 그룹화 전략을 포함한다: (1) 주파수 인식 다중 파라미터 행내 그룹화, (2) ℓ₂-노름 기반 중요도 기반 열 선택. 중요도가 낮은 가중치에 대해서는 각 주파수 대역 내 양자화 그룹별로 공유 평균값을 사용해 저장 효율을 최적화한다. OPT와 LLaMA 모델에 대한 실험 결과, HBLLM은 1비트 양자화 분야에서 최첨단 성능을 달성했으며, LLaMA2‑13B에서 평균 가중치 저장량 1.08비트로 퍼플렉시티 6.71을 기록하였다. 코드: https://github.com/Yeyke/HBLLM

상세 요약

HBLLM 논문은 대형 언어 모델(LLM)의 사후 훈련 양자화(post‑training quantization, PTQ)에서 가장 극단적인 비트폭인 1비트 양자화에 도전한다는 점에서 학술적·산업적 의미가 크다. 기존 1비트 양자화 기법은 가중치의 이진화 과정에서 발생하는 정보 손실을 최소화하기 위해 복잡한 재학습(re‑training)이나 다중 스케일링 파라미터를 도입했지만, 연산량·메모리 오버헤드가 크게 늘어나는 단점이 있었다. HBLLM은 이러한 문제를 Haar 파동 변환이라는 고전적인 신호 처리 기법으로 근본적으로 해결한다. Haar 파동 변환은 입력 신호를 저주파와 고주파 성분으로 분리해 각각의 특성을 별도로 다룰 수 있게 하며, 특히 가중치 텐서가 갖는 공간적·채널적 상관관계를 효과적으로 해소한다. 저주파 성분은 모델의 전반적인 구조와 학습된 표현을 담당하고, 고주파 성분은 미세한 디테일과 노이즈를 포함한다. HBLLM은 이 두 영역을 별도 그룹화하여 서로 다른 양자화 파라미터를 할당함으로써, 고주파 영역에서는 보다 강력한 압축을, 저주파 영역에서는 정밀도를 유지한다는 균형을 이룬다.

두 번째 핵심 기여는 ‘주파수 인식 다중 파라미터 행내 그룹화’와 ‘ℓ₂‑노름 기반 중요도 열 선택’이라는 두 단계의 구조‑인식 그룹화 전략이다. 첫 단계에서는 같은 행(row) 내에서 파라미터를 주파수 밴드별로 다중 그룹화하고, 각 그룹에 독립적인 스케일 및 오프셋 파라미터를 부여한다. 이는 기존의 행‑단위 단일 스케일링 방식보다 훨씬 높은 표현 자유도를 제공한다. 두 번째 단계에서는 각 열(column)의 ℓ₂‑노름을 계산해 중요도를 평가하고, 중요도가 낮은 열에 대해서는 동일한 평균값(mean)을 공유하도록 설계한다. 이 과정은 비트‑레벨 저장량을 크게 절감하면서도, 중요도가 높은 파라미터는 개별적으로 보존해 성능 저하를 방지한다.

실험에서는 대표적인 오픈소스 LLM인 OPT와 LLaMA 시리즈에 적용했으며, 특히 LLaMA2‑13B 모델에서 평균 가중치 저장량을 1.08비트로 낮추면서도 퍼플렉시티 6.71이라는 뛰어난 결과를 얻었다. 이는 기존 1비트 양자화 방법이 보통 8~10 이상의 퍼플렉시티를 기록하는 것에 비해 현저히 개선된 수치이다. 또한, 저장 효율과 연산 효율을 동시에 달성했음에도 불구하고, 추가적인 연산 오버헤드가 Haar 변환 및 그룹화 단계에서 발생하는 비용이 미미함을 보고한다. 이는 실제 서비스 환경에서 메모리 제한이 심각한 모바일·엣지 디바이스에 바로 적용 가능함을 의미한다.

전체적으로 HBLLM은 신호 처리 이론과 딥러닝 양자화 기술을 융합한 혁신적 접근법으로, 1비트 양자화라는 극한 압축 상황에서도 모델 성능을 유지할 수 있음을 입증한다. 향후 연구에서는 다른 파동 기반 변환(예: Daubechies, Coiflet)이나 다중‑주파수 혼합 전략을 도입해 더욱 정교한 압축‑정밀도 트레이드오프를 탐색할 여지가 있다. 또한, 파라미터 외에 활성화(activation) 양자화에도 동일한 프레임워크를 적용하면 전체 모델 파이프라인의 메모리 사용량을 더욱 감소시킬 수 있을 것으로 기대된다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...