비전·언어 교차주의 합의를 통한 효율적 토큰 압축

비전·언어 교차주의 합의를 통한 효율적 토큰 압축
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 시각 인코더의 전역적 saliency와 LLM 내부의 질의‑조건 교차‑주의 점수를 결합해, 사전‑LLM 단계에서 시각 토큰을 선택·병합하는 훈련‑무료 프레임워크 ConsensusDrop을 제안한다. Vision‑only와 Cross‑modal‑only 방식의 한계를 분석하고, Static Cross‑Attention Probe(SCAP)와 멀티모달 Fuser, Encoder‑Guided Token Merge(EGTM) 모듈을 통해 비대칭적인 두 신호를 조화시켜 토큰 예산을 크게 줄이면서도 정확도 손실을 최소화한다. LLaVA‑1.5, LLaVA‑Next, Video‑LLaVA 등 다양한 오픈‑소스 VLM에 적용해 기존 프루닝 기법 대비 우수한 효율‑정확도 Pareto를 달성한다.

상세 분석

ConsensusDrop은 기존 VLM 토큰 감소 기법이 갖는 근본적인 두 가지 문제를 정확히 짚는다. 첫째, Vision‑only 프루닝은 이미지 전체의 시각적 중요도를 기반으로 하지만 질의에 따라 달라지는 세부 정보를 놓치기 쉽다. 둘째, Cross‑modal‑only 프루닝은 LLM 내부의 텍스트‑시각 교차‑주의를 이용해 질의‑조건성을 확보하지만, 주의 점수가 희소하고 LLM 내부에서만 얻을 수 있어 FlashAttention을 비활성화하고 KV‑cache 파편화를 초래한다. 저자들은 두 신호가 서로 보완적이라는 가설을 실험적으로 검증한다. Vision‑side 점수는 기본적인 토큰 순위를 제공하고, Cross‑modal 점수는 이 순위에서 놓친 소수의 핵심 토큰을 교정한다는 ‘비대칭 시너지’를 발견했다. 이를 토대로 SCAP을 설계해 LLM 앞 단계에서 텍스트‑시각 교차‑주의를 경량화된 형태로 추출한다. 이후 Fuser 모듈은 Vision 점수에 가중치를 두고, 교차‑주의 점수와 정규화된 합산을 통해 최종 토큰 중요도 순위를 만든다. 선택된 상위 K 토큰은 그대로 보존하고, 나머지는 EGTM을 통해 시각 인코더의 피처 공간에서 군집화·합성한다. 이 과정은 훈련 없이도 토큰 수를 크게 줄이면서도 시각적 정보를 손실 최소화한다. 실험에서는 동일 토큰 예산 하에 기존 방법보다 평균 2~4%p 높은 정확도를 기록했으며, 특히 25% 이하의 극단적 압축에서도 원본 성능에 근접했다. 또한, 사전‑LLM 단계에서 토큰을 줄이므로 FlashAttention을 유지하고 KV‑cache 사용량을 크게 감소시켜 실시간 응용에 적합한 속도 향상을 달성한다.


댓글 및 학술 토론

Loading comments...

의견 남기기