객관적 공동 바바이‑클라인 양자화: 저비트 LLM 압축의 새로운 패러다임

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

OJBKQ는 레이어별 사후 훈련 양자화(PTQ)를 활성화와 가중치를 동시에 최적화하는 목표로 재구성하고, 각 가중치 열에 대해 확장된 바바이 알고리즘과 K‑회 무작위 Klein 알고리즘을 결합해 최소 잔차를 갖는 후보를 선택한다. 새로운 Joint Target Alignment(JTA) 스코어링을 도입해 런타임 양자화와 풀프레시전 정답 사이를 연속적으로 보정함으로써 3‑4비트 양자화에서도 기존 PTQ 대비 낮은 퍼플렉시티와 비슷한 연산 비용을 달성한다.

상세 분석

본 논문은 대규모 언어 모델(LLM)의 사후 훈련 양자화(PTQ)를 기존의 휴리스틱 기반 라운딩에서 벗어나 수학적으로 엄밀한 격자 디코딩 문제로 전환한다는 점에서 혁신적이다. 저자들은 레이어별 가중치 양자화 문제를 “다중 RHS 박스 제약 정수 최소제곱(BILS)” 형태로 공식화하고, 이를 NP‑hard 문제로 인식한다. 해결 전략으로는 각 가중치 열을 독립적인 BILS 서브문제로 분리한 뒤, 전통적인 Babai 최근평면 알고리즘을 확장해 박스 제약을 만족하도록 구현한다. Babai는 빠르지만 기저가 잘 정규화되지 않으면 잔차가 크게 늘어나는 단점이 있다. 이를 보완하기 위해 Klein이 제안한 무작위 라운딩 방식을 K번 독립 실행(K‑Best)하여 다수의 후보 정수 해를 생성한다. 각 후보는 동일한 잔차를 계산하고, 가장 작은 잔차를 보이는 “Babai‑Klein 최적점”을 선택한다.

핵심적인 또 다른 기여는 Joint Target Alignment(JTA)라는 연속적인 스코어링 함수이다. 기존 PTQ는 “런타임 일관성”(partial‑quantized activation에 맞추는) 혹은 “풀프레시전 매핑”(원본 activation에 맞추는) 중 하나에만 초점을 맞추어, 층간 오류 전파와 입력 분포 변동을 충분히 고려하지 못했다. JTA는 µ∈

객관적 공동 바바이‑클라인 양자화: 저비트 LLM 압축의 새로운 패러다임

초록

상세 분석

댓글 및 학술 토론

의견 남기기