아스트로: 활성화‑가이드 구조 정규화로 구현하는 아웃라이어‑강인 LLM 양자화

아스트로: 활성화‑가이드 구조 정규화로 구현하는 아웃라이어‑강인 LLM 양자화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

아스트로는 대규모 언어 모델(LLM)의 가중치만을 대상으로 하는 사후 양자화(PTQ)에서, 가중치·활성화 아웃라이어가 초래하는 정확도 손실을 완화한다. 모델이 평탄 최소점(Flat Minima)에 수렴한다는 이론적 통찰을 활용해, 활성화 크기에 따라 정규화 강도를 조절하는 구조화된 정규화 목표를 설정하고, 기존 가중치를 정규화된 가중치로 교체한다. 이 과정은 추론 시 추가 연산이나 메모리 접근 변화를 일으키지 않아 ‘제로 인퍼런스 레이턴시’를 보장한다. GPTQ와 같은 기존 양자화 기법과도 플러그‑인 방식으로 결합 가능하며, LLaMA‑2‑7B 기준 3‑bit 가중치 양자화에서 복잡한 회전 기반 방법보다 3배 빠른 양자화 시간에 더 나은 퍼플렉시티를 달성한다.

상세 분석

아스트로는 크게 네 가지 핵심 아이디어에 기반한다. 첫째, 최근 연구가 제시한 바와 같이 과다 파라미터화된 LLM은 손실곡면에서 급격한 볼록점이 아닌 넓은 평탄 최소점에 수렴한다는 점이다. 이는 동일한 손실을 유지하면서 가중치를 일정 범위 내에서 자유롭게 변형할 수 있는 ‘동등 해(solution space)’가 존재함을 의미한다(정리 4.3). 둘째, 정량적 오류 상한을 도출한 정리 4.5는 양자화 오차가 가중치 아웃라이어와 해당 가중치가 작동하는 활성화의 L2‑노름 ‖Xₖ‖₍F₎ 사이에 곱셈적 결합 관계가 있음을 보여준다. 즉, 높은 활성화 크기를 가진 채널에서 가중치 아웃라이어가 존재하면 양자화 오차가 급격히 증폭된다. 셋째, 이러한 이론적 통찰을 바탕으로 ‘활성화‑가이드 구조 정규화’를 설계한다. 구체적으로, 각 가중치 그룹 k에 대해 활성화 평균 ‖Xₖ‖₍F₎를 측정하고, 이를 정규화 강도 αₖ에 곱한다(αₖ ∝ ‖Xₖ‖₍F₎). 활성화가 큰 그룹에는 강한 L2 정규화를 적용해 가중치 아웃라이어를 억제하고, 활성화가 작은 안정적인 그룹에는 약한 정규화만 부여해 원본 가중치와의 재구성 정확도를 유지한다. 넷째, 정규화된 가중치는 기존 양자화 파이프라인(GPTQ 등)과 동일하게 그룹‑와이즈 스케일링을 적용해 양자화한다. 중요한 점은 정규화 과정이 사후 훈련 단계에서만 수행되고, 최종 양자화된 가중치가 그대로 모델에 삽입되므로 추론 시 추가 연산이나 메모리 재배열이 전혀 필요 없다는 것이다.

아스트로는 기존 두 갈래 접근법의 한계를 효과적으로 보완한다. ‘아웃라이어 차등 처리’ 방식(예: LLM.int8, SpQR)은 아웃라이어를 고정밀으로 저장하거나 별도 경로로 분리하지만, 메모리 접근 불규칙성과 조건부 브랜치로 인한 하드웨어 병렬성 저하를 초래한다. ‘동등 변환’ 방식(채널 스케일링, 회전 등)은 가중치·활성화 분포를 평탄화하려 하지만, 변환 행렬을 찾는 비용이 크고, 회전 기반 방법은 추론 시 추가 행렬 곱셈 혹은 복잡한 연산자 융합을 요구한다. 반면, 아스트로는 가중치 자체를 정규화된 형태로 재구성함으로써 이러한 부가 비용을 완전히 제거한다.

실험 결과는 두드러진 실용성을 보여준다. LLaMA‑2‑7B를 3‑bit 가중치, 16‑bit 활성화, 그룹 크기 128(g128) 설정으로 양자화했을 때, 아스트로는 기존 회전 기반 방법보다 퍼플렉시티(PPL) 0.02~0.04 정도 개선하면서도 전체 양자화 시간은 33 분(아스트로) 대비 130 분(SpinQuant) 수준으로 1/3 수준에 불과했다. 또한, GPTQ와 결합했을 때는 동일 비트폭에서 추가적인 정확도 향상을 달성했으며, ‘제로 인퍼런스 레이턴시’라는 주장도 실제 하드웨어 시뮬레이션에서 확인되었다.

한계점으로는 정규화 강도 αₖ를 결정하는 활성화 통계가 캘리브레이션 데이터에 크게 의존한다는 점이다. 캘리브레이션 샘플이 충분히 다양하지 않으면 특정 토큰 시퀀스에서 과소·과대 정규화가 발생할 수 있다. 또한, 현재 구현은 Transformer의 선형 계층에만 적용되며, 비선형 연산이나 복합적인 멀티‑헤드 어텐션 구조에 대한 확장은 추가 연구가 필요하다.

종합하면, 아스트로는 ‘평탄 최소점’이라는 이론적 배경을 실용적인 정규화 메커니즘으로 전환함으로써, LLM PTQ에서 아웃라이어 문제를 하드웨어 친화적으로 해결한다. 기존 방법이 겪던 정확도‑효율성 트레이드오프를 크게 완화하고, 플러그‑인 형태로 기존 양자화 파이프라인에 쉽게 통합될 수 있다는 점에서 향후 대규모 모델 배포에 중요한 역할을 할 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기