캘리브레이션과 변환 없이 가중치만 양자화하는 동적 그룹화 기법

캘리브레이션과 변환 없이 가중치만 양자화하는 동적 그룹화 기법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

대규모 언어 모델의 효율적 배포를 위해 캘리브레이션 데이터나 추가 변환 없이 가중치만을 저비트로 양자화하는 새로운 방법 MSB를 제안한다. 동적 그룹화를 통해 가중치 분포에 맞춰 최적의 양자화 스케일을 자동으로 결정하며, Llama 3.2 3B 모델에서 4비트 블록 단위 양자화 시 GPTQ 대비 월등한 성능을 보인다.

상세 분석

본 논문이 제안하는 MSB(Multi Scale Binary) 방법의 핵심 혁신은 ‘캘리브레이션 및 변환 불필요’와 ‘동적 그룹화 최적화’라는 두 가지 축에 있다. 기존 저비트 PTQ는 양자화 오류를 줄이기 위해 캘리브레이션 데이터셋을 이용한 민감도 분석이나, 아웃라이어 처리를 위한 행렬 회전/재조정 등 추가적인 변환 단계를 필수로 요구했다. 이는 배포 파이프라인의 복잡성과 계산 비용을 증가시켰다.

MSB는 이러한 의존성을 근본적으로 제거한다. 방법론의 출발점은 1비트 양자화(이진화)의 목적 함수를 다중 비트 설정으로 일반화하는 것이다. 즉, 단일 스케일 계수를 사용하는 전통적 이진화를 넘어, 서로 다른 스케일 계수(α_i)를 가진 여러 개의 이진 그룹({B_i})으로 가중치 행렬을 근사하는 ‘다중 스케일 이진’ 형식을 채택한다. 최종 목표 함수는 각 그룹 내 양자화 오차(분산)와 그룹 크기에 대한 페널티를 합한 비용을 최소화하는 그룹 분할을 찾는 것이다.

이 복잡한 조합 최적화 문제를 해결하기 위해 논문은 정확도-계산 비용 트레이드오프에 따라 4가지 알고리즘 변종을 제시한다. 동적 프로그래밍을 사용한 ‘Algorithm 1 (DG)‘은 전역 최적해를 보장하지만 계산 비용이 높다. ‘Algorithm 2 (GG)‘는 인접 그룹을 탐욕적으로 병합하는 휴리스틱 방법이다. 실용성과 성능을 가장 잘 절충한 ‘Algorithm 3 (WGM)‘은 정렬된 가중치를 고정 크기 창으로 초기 분할한 후 창 내에서 최적 병합을 수행한다. ‘Algorithm 4 (WGM-LO)‘는 값의 범위를 기준으로 한 초기 빈닝과 지역 최적화를 결합해 WGM의 속도를 더욱 향상시킨다.

이 방법론의 강점은 동일한 목표 함수와 알고리즘 프레임워크가 ‘텐서 단위’(약 6비트)와 ‘블록 단위’(64개 요소 블록, 4비트) 양자화 설정 모두에 일관되게 적용될 수 있다는 점이다. 이는 단순함과 유연성을 동시에 증명한다. 실험 결과, 복잡한 캘리브레이션 기반 방법인 GPTQ가 동일 4비트 설정에서 WikiText-2 퍼플렉서티를 12.23까지 악화시킨 반면, MSB는 8.43이라는 우수한 수치를 기록했다. 이는 가중치 분포 자체에 내재된 정보만으로도 효과적인 저비트 양자화가 가능함을 시사하는 중요한 결과다.


댓글 및 학술 토론

Loading comments...

의견 남기기