액션 중심 양자화 비전 언어 액션 모델 압축
초록
본 논문은 로봇 제어에 사용되는 Vision‑Language‑Action(VLA) 모델을 대상으로, 기존 LLM‑전용 균일 비트 양자화가 행동 오류를 급격히 증가시킨다는 문제를 지적한다. 저자는 행동 공간에 직접 민감도를 측정해 채널별 중요도를 산출하고, 전역 최적화 과정을 통해 각 채널에 0, 2, 4, 8, 16 비트를 할당하는 QVLA 프레임워크를 제안한다. 실험 결과, OpenVLA‑OFT를 29.2 % VRAM만 사용하면서도 원본 성능의 98.9 %를 유지하고 1.49× 속도 향상을 달성했으며, LLM 기반 SmoothQuant 대비 22.6 %의 성능 개선을 보였다.
상세 분석
QVLA는 VLA 모델의 특수성을 고려한 최초의 행동‑중심 양자화 기법이다. 기존 LLM 및 MLLM 양자화는 텍스트 퍼플렉시티나 시각 특징 보존을 목표로 하며, 전체 파라미터에 동일한 비트를 적용하거나 레이어 단위의 혼합 정밀도만 제공한다. 그러나 VLA 모델은 시각‑언어 인코더‑디코더 구조 뒤에 행동 디코더가 직접 연결돼 있어, 작은 수치 오차가 물리적 동작에 곧바로 전파되고, 장시간 시뮬레이션에서는 오류가 누적돼 심각한 실패를 초래한다. 논문은 먼저 모듈별 민감도 분석을 수행해 비전 인코더는 비교적 강인한 반면, 프로젝트 레이어와 행동 헤드가 양자화에 가장 취약함을 확인한다. 이어서 동일 모듈 내에서도 채널 수준의 이질성이 존재함을 보여준다.
이러한 관찰을 바탕으로 QVLA는 두 단계로 구성된다. 첫 번째는 행동‑공간 민감도 추정이다. 각 채널을 다양한 비트(0, 2, 4, 8, 16)로 양자화했을 때 최종 행동 출력의 L2 차이나 KL 발산을 빠르게 근사하기 위해 1차 테일러 전개 기반의 그래디언트 추정기를 사용한다. 이 과정은 전체 파라미터를 재계산하지 않고도 채널별 영향도를 정량화한다. 두 번째는 전역 비트 할당 최적화이다. 초기 상태는 모든 채널을 16‑bit(또는 FP16)로 두고, 예산(메모리·연산 제한) 이하가 될 때까지 가장 민감도가 낮은 채널부터 비트를 단계적으로 감소시킨다. 비트 감소는 0‑bit(프루닝)까지 허용해 불필요한 채널을 완전히 제거한다. 이 greedy demotion 알고리즘은 전체 예산을 만족하면서 행동 오류를 최소화한다는 목표 함수를 직접 최적화한다.
실험에서는 OpenVLA와 OpenVLA‑OFT 두 베이스라인을 LIBERO 환경에서 평가한다. QVLA 적용 모델은 원본 VRAM의 29.2 %만 사용하면서도 성공률 98.9 %를 유지했고, 평균 추론 시간은 1.49배 단축되었다. 동일 평균 비트폭을 갖는 SmoothQuant 대비 행동 오류가 22.6 % 감소했으며, 특히 프로젝트 레이어와 행동 헤드에서의 비트 감소가 전체 성능 저하를 최소화함을 실증하였다. 또한, 채널‑단위 프루닝을 포함한 결과는 메모리 절감 효과와 동시에 연산량 감소를 가져와 로봇 하드웨어에서 실시간 제어가 가능하도록 만든다.
QVLA는 양자화와 프루닝을 하나의 프레임워크로 통합함으로써, 기존 PTQ·QAT 파이프라인에 비해 추가적인 재학습 없이도 높은 압축 효율을 달성한다. 행동‑중심 민감도 측정이라는 새로운 평가 지표는 VLA 모델뿐 아니라 다른 연속 제어 시스템에도 확장 가능할 것으로 보인다.
댓글 및 학술 토론
Loading comments...
의견 남기기