이미지는 1/3 토큰 이하로 충분하다: iLLaVA로 대규모 멀티모달 모델 가속화
초록
iLLaVA는 이미지 인코더와 대형 언어 모델(LLM) 양쪽에서 토큰을 선택·병합해 시각적 중복을 제거한다. 토큰 병합 전략을 통해 버려지는 토큰의 정보를 재활용함으로써 성능 저하 없이 연산량을 크게 줄인다. 실험 결과, 이미지·비디오 이해 작업에서 최대 2배의 처리량 향상과 4배의 프리필링 시간 감소를 달성했으며, 26B 모델이 8B 모델을 정확도·효율성 모두에서 앞섰다.
상세 분석
iLLaVA 논문은 기존 LVLM(대형 비전‑언어 모델) 가속화 연구가 LLM 단계에서만 토큰을 감소시키는 데 머물렀던 한계를 짚고, 이미지 인코더 자체가 전체 연산 비용의 대부분을 차지한다는 사실을 실험적으로 입증한다. 특히, 이미지 인코더는 LLM에 전달되는 토큰 수의 주된 공급원이며, 인코더 단계에서 중복을 제거하면 인코더 자체의 연산량 감소와 더불어 LLM에 전달되는 토큰 수가 급감해 복합적인 효율 향상이 가능해진다.
핵심 기법은 ‘두 단계 토큰 병합(Two‑Stage Token Merging)’이다. 이미지 인코더의 여러 블록에 토큰 병합 모듈을 삽입해, 멀티‑헤드 어텐션(MHA) 후에 중요도가 낮은 토큰을 선택하고, 선택된 토큰과 버려지는 토큰을 가중합해 새로운 토큰으로 재구성한다. 이렇게 하면 완전히 삭제되는 것이 아니라, 버려지는 토큰이 담고 있던 보조 정보를 ‘재활용’함으로써 정보 손실을 최소화한다. 동일한 전략이 LLM에도 적용되어, 특정 LLM 블록 뒤에서 이미지 토큰을 점진적으로 감소시킨다.
토큰 중요도 판단은 어텐션 스코어를 기반으로 한다. 이미지 인코더에서는 각 레이어의 어텐션 맵이 이미지 내 핵심 영역(예: 새)만 집중하고 있음을 시각화해, 어텐션 값이 높은 토큰이 정보량이 크다고 가정한다. LLM에서도 어텐션 스코어가 높은 토큰을 유지하고, 낮은 토큰을 병합 대상으로 삼는다. 토큰 병합 비율(Rv, Rt)과 적용 블록 수(Bv, Bt)를 조절함으로써 전체 연산 예산을 유연하게 할당한다.
실험은 10여 개의 이미지·비디오 벤치마크(싱글 이미지, 멀티 이미지, 비디오 질문응답 등)에서 수행되었으며, 토큰 감소 비율이 30%~70%까지 확대돼도 정확도는 95% 이상 유지되었다. 특히, 동일 토큰 수를 LLM에서만 줄였을 때 대비 인코더에서 먼저 감소시켰을 경우 처리량이 평균 +25.3% 향상되고 메모리 사용량이 -21.2% 감소했다. 또한, InternVL‑2.5 26B 모델이 8B 모델보다 2배 빠른 속도와 더 높은 정확도를 기록했다.
비교 대상에는 FastV, SparseVLM, Faster‑VLM, VisionZip, PyramidDrop, DiVPrune, AdaFV, AIM 등 최신 토큰 프루닝·병합 기법이 포함됐으며, iLLaVA는 전반적인 FLOPs 감소와 정확도 유지 측면에서 일관되게 우수함을 보였다. 시각화 결과는 병합 과정에서 선택된 토큰(빨간색)과 버려진 토큰(검은색)의 위치가 의미 있게 분포함을 보여, 어텐션 기반 선택이 실제 시각적 중요도와 잘 맞물린다는 것을 확인한다.
한계점으로는 토큰 병합 모듈이 추가적인 파라미터와 연산을 도입하지만, 전체 FLOPs 대비 미미한 수준이며, 현재는 사전 정의된 병합 비율을 사용한다는 점이다. 향후 연구에서는 입력 이미지 복잡도에 따라 동적으로 병합 비율을 조정하는 어댑티브 메커니즘을 도입하거나, 비전 트랜스포머 외 다른 인코더 구조(CNN, 하이브리드)에도 적용 가능성을 탐색할 여지가 있다.
전반적으로 iLLaVA는 “이미지는 토큰보다 적게 필요하다”는 직관을 실증적으로 입증하고, 이미지 인코더와 LLM을 동시에 최적화함으로써 엔드‑투‑엔드 가속화를 달성한 점에서 LVLM 연구에 중요한 전진을 이룬다.
댓글 및 학술 토론
Loading comments...
의견 남기기