세계 모델 양자화 실증 연구 효율적 플래닝을 위한 포스트 트레이닝 양자화 분석
초록
본 논문은 시각 기반 플래닝에 사용되는 DINO‑WM 세계 모델을 대상으로 다양한 포스트‑트레이닝 양자화(PTQ) 기법을 체계적으로 평가한다. 가중치 전용 양자화와 가중치‑활성화 공동 양자화를 3‑8비트 범위, 채널·그룹 단위, 텐서·토큰 단위 등 다양한 granularity로 실험하고, 플래닝 horizon을 0‑50 단계까지 늘려 성공률 변화를 측정한다. 8비트에서는 FP32과 거의 동일한 성능을 보이나, 4비트 이하에서는 양자화 방식에 따라 롤아웃 안정성, 모듈별 민감도, 목표‑성공 정렬이 크게 달라진다. 특히 그룹‑단위 가중치 양자화가 저비트에서 롤아웃을 회복시키는 반면, 활성화 양자화 granularity는 일관된 이득을 제공하지 못한다. 인코더와 예측기 모듈의 비대칭적 민감성 및 저비트에서 목표와 성공률 사이의 정렬 붕괴 등 새로운 실패 모드가 밝혀졌으며, 이는 실시간 로봇 및 대규모 시뮬레이션에서 양자화된 세계 모델을 배포할 때 실용적인 가이드라인을 제공한다.
상세 분석
이 연구는 세계 모델이 플래닝 루프에서 반복적으로 호출되는 특성을 고려해 양자화 오류가 시간 축에 누적되는 현상을 정량적으로 분석한다. 먼저 DINO‑WM의 인코더와 예측기 두 서브모듈이 각각 매우 다른 활성화 분포와 스케일 불균형을 보임을 시각화(그림 1)하고, 이러한 특성이 저비트 양자화 시 ‘활성화 아웃라이어’와 ‘스케일 불균형’이라는 두 가지 주요 위험 요인을 만든다.
양자화 기법별로는 R‑TN(단순 라운딩), OMSE(평균제곱오차 최소화), AWQ(활성화‑가중치 인식), SmoothQuant(가중치‑활성화 공동 스무딩), OmniQuant(전역 최적화) 다섯 가지를 선택했으며, 각각을 가중치‑전용(3, 4, 8 bit)과 가중치‑활성화 공동(W8A8, W6A6, W4A8, W4A4) 설정으로 적용했다.
실험 결과는 크게 세 가지 인사이트로 요약된다.
1️⃣ 비트폭과 플래닝 Horizon의 상호작용: 8 bit에서는 모든 PTQ 방법이 0‑50 iteration 전 구간에서 성공률이 0.9 이상으로 FP32와 차이가 거의 없었다. 반면 4 bit 이하에서는 초기 단계(0‑5 iteration)에서 급격히 성능이 떨어지지만, 특히 ‘그룹‑단위’ 가중치 양자화(그룹 크기 128)에서는 롤아웃이 진행될수록 모델이 양자화 편향을 보정하는 경향을 보였다. 예를 들어 Wall 환경에서 OmniQuant‑그룹 양자화는 0 iteration에서 0.20의 성공률이 50 iteration에서는 0.94까지 회복되었다. 이는 플래닝 과정에서 다수의 후보 행동을 평가하면서 발생하는 ‘다중 시도’가 양자화 오류를 평균화하는 효과를 의미한다.
2️⃣ 활성화 양자화 Granularity의 비일관성: 활성화 양자화를 per‑tensor와 per‑token 두 방식으로 비교했지만, 저비트(3‑4 bit)에서는 오히려 per‑tensor가 더 안정적인 결과를 보였다. 이는 토큰 단위로 스케일을 맞추면 일부 토큰에서 극단적인 값이 과도하게 클리핑되어 전체 롤아웃에 큰 왜곡을 일으키기 때문이다. 반면 8 bit에서는 두 방식 간 차이가 미미했다. 따라서 실제 배포 시에는 활성화 양자화 granularity를 상황에 맞게 선택해야 한다는 실용적 교훈을 제공한다.
3️⃣ 모듈별 비대칭 민감도: 인코더와 예측기 중 어느 쪽이 양자화에 더 취약한가를 별도 실험으로 확인했다. 인코더는 입력 이미지 특징을 고정밀로 유지해야 하는 반면, 예측기는 시계열 상태 전이와 보상 예측을 담당한다. 결과는 인코더가 4 bit 이하에서 급격히 성능이 저하되는 반면, 예측기는 6 bit 정도까지 비교적 견고함을 보여준다. 따라서 제한된 비트폭을 할당할 때는 인코더에 더 높은 정밀도를 부여하고, 예측기에는 그룹‑양자화와 같은 압축 기법을 적용하는 것이 효율적이다.
또한 ‘목표‑성공 정렬’이라는 새로운 실패 모드가 발견되었다. 저비트 양자화가 성공률을 크게 떨어뜨리는 경우, 플래닝 목표 함수(예: 미래 관측과 목표 관측 간 L2 거리)와 실제 성공(목표 도달) 사이의 상관관계가 약해진다. 즉, 모델이 낮은 손실을 보고도 실제 환경에서는 목표에 도달하지 못하는 현상이 빈번히 발생한다. 이는 단순히 손실값만을 기준으로 양자화 품질을 평가하는 것이 충분하지 않으며, 플래닝 성공률을 직접 측정하는 평가 파이프라인이 필요함을 시사한다.
전반적으로 이 논문은 세계 모델 양자화 연구에 있어 첫 번째 대규모 실험 데이터를 제공하고, 비트폭, 양자화 granularity, 모듈별 민감도, 플래닝 horizon 등 다차원적인 요인이 어떻게 상호작용하는지를 정량적으로 밝혀냈다. 이러한 결과는 로봇 제어, 자율 주행, 대규모 시뮬레이션 등 실시간으로 긴 플래닝을 수행해야 하는 응용 분야에서 양자화된 세계 모델을 안전하게 배포하기 위한 설계 지침을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기