시각언어 모델 가속을 위한 추론 목표 기반 토큰 압축

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PIO‑FVLM은 시각‑언어 모델의 추론 단계에서 출력 결과 일관성을 보존하는 것을 목표로, 레이어‑로컬 프록시 손실을 이용해 토큰별 그래디언트 중요도를 계산하고, NMS 방식으로 중복을 제거해 시각 토큰을 11 % 수준으로 압축한다. 학습 없이 FlashAttention과 호환되며, LLaVA‑Next‑7B에서 2.6배 프리필·2.1배 추론 가속과 97 % 성능 유지 효과를 보인다.

상세 분석

본 논문은 기존 시각 토큰 압축 기법이 토큰 간 유사도 혹은 텍스트‑이미지 상호작용을 기반으로 하는 휴리스틱에 의존해 실제 가속 효과가 제한적이라는 점을 지적한다. 이를 극복하기 위해 “출력 결과 불변성 보존”이라는 추론 목표를 직접적인 최적화 목표로 삼는다. 핵심 아이디어는 레이어‑로컬 프록시 손실(L_l)을 정의해 현재 레이어의 출력이 최종 예측에 미치는 영향을 근사하고, 이 손실에 대한 입력 토큰의 그래디언트 ‖∂L_l/∂H_{l‑1,i}‖_2 를 토큰 중요도( saliency)로 활용한다. 그래디언트는 토큰이 모델 출력에 기여하는 정도를 직접적으로 반영하므로, 높은 saliency를 가진 토큰을 보존하면 최종 성능 저하를 최소화할 수 있다.

하지만 단순 Top‑K 선택은 고점수 토큰이 공간적으로 군집되는 경향이 있어 전역적인 시각 정보 커버리지를 손상한다. 이를 보완하기 위해 논문은 NMS(Non‑Maximum Suppression) 기반 선택 알고리즘을 도입한다. 먼저 각 토큰을 L2 정규화한 특징 벡터 u_i 로 변환하고, 상삼각 유사도 행렬 S_{ij}=⟨u_i,u_j⟩ 를 계산한다. 이후 높은 saliency 순으로 후보를 탐색하면서, 이미 선택된 토큰과의 유사도가 사전 정의된 임계값을 초과하면 제외한다. 이 과정은 토큰 간 중복을 억제하면서도 중요한 토큰을 골고루 유지한다.

알고리즘은 프리필 단계에서 얕은 레이어부터 깊은 레이어까지 점진적으로 토큰 수를 감소시키며, 각 단계마다 프록시 손실과 NMS를 적용한다. 중요한 점은 이 과정이 기존 Transformer 블록의 연산 흐름을 변경하지 않으며, FlashAttention과 같은 고성능 어텐션 구현과 완전 호환된다는 것이다. 따라서 추가적인 하드웨어 최적화 없이도 실시간 추론 가속이 가능하다.

실험에서는 LLaVA‑Next‑7B, LLaVA‑1.5‑7B 등 세 가지 VLM에 대해 8개 벤치마크(GQA, MMB, MME 등)에서 토큰 비율을 11 %까지 낮추면서도 평균 97 % 이상의 성능을 유지한다. FLOPs는 6.2배 감소하고 KV‑Cache 메모리도 6배 절감된다. 또한 VisionZip 등 기존 인코더‑압축 기법과 결합해 “인코더‑포함” 모드에서도 동일한 효율성을 입증한다.

요약하면, PIO‑FVLM은 (1) 추론 목표 기반의 손실 설계, (2) 그래디언트 기반 토큰 중요도 측정, (3) NMS를 통한 다양성 보장이라는 세 가지 핵심 기법을 통해 학습‑프리, 고속, 고효율적인 시각 토큰 압축을 구현한다.

시각언어 모델 가속을 위한 추론 목표 기반 토큰 압축

초록

상세 분석

댓글 및 학술 토론

의견 남기기