IVC‑Prune: LVLM의 숨은 시각 좌표를 활용한 토큰 프루닝

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Rotary Position Embedding(RoPE)에서 특정 위치가 실제 좌표축 역할을 함을 이론적으로 증명하고, 이러한 “Implicit Visual Coordinate”(IVC) 토큰과 의미론적 전경 토큰을 동시에 보존하는 훈련‑무료 프루닝 기법 IVC‑Prune을 제안한다. 4가지 대표 LVLM에 20개 벤치마크를 적용해 시각 토큰을 약 50% 감소시키면서 원본 성능의 99% 이상을 유지하고, 공간 추론이 요구되는 작업에서는 오히려 성능 향상을 달성한다.

상세 분석

IVC‑Prune의 핵심 아이디어는 RoPE가 단순히 상대 위치를 인코딩하는 것이 아니라, 회전 행렬의 주기성과 직교성으로 인해 특정 토큰 위치가 절대 좌표축(실축·허축)과 동일한 변환을 수행한다는 점이다. 논문은 먼저 RoPE의 수학적 정의를 재정리하고, 토큰 위치 m에 대한 회전 행렬 R(m)과 단위 행렬 I, 90° 회전 행렬 J 사이의 Frobenius 거리식을 전개한다. 거리식을 최소화하는 조건은 각각 코사인 합과 사인 합을 최대화하는 것이며, 이를 V(m)=∑ₖcos(mθₖ)와 U(m)=∑ₖsin(mθₖ)라는 두 점수 함수로 정의한다. V(m)값이 큰 위치는 실축 기준점, U(m)값이 큰 위치는 허축 기준점으로 해석된다. 이러한 위치들을 상위 k_c 개씩 선택하면 IVC 토큰 집합이 형성된다.

전경 토큰 선택은 두 단계로 이루어진다. 첫 단계에서는 텍스트와 이미지 토큰의 value‑vector 간 코사인 유사도를 이용해 “semantic seed”를 추출한다. 여기서는 RoPE에 의해 왜곡되지 않은 value‑vector만을 사용해 텍스트‑이미지 의미 정렬을 측정한다. 두 번째 단계에서는 seed와 모든 텍스트 토큰을 결합한 확장 쿼리 집합을 구성하고, 다시 value‑vector 기반 유사도로 전체 이미지 토큰에 대한 중요도를 재계산한다. 최종적으로 상위 k_f 개의 토큰을 전경 토큰으로 선정한다.

프루닝 전략은 한 중간 레이어에서 선택된 토큰 집합을 고정하고, 이전 레이어의 KV‑cache와 이후 레이어의 입력 모두에 동일하게 적용한다. 이렇게 하면 위치 ID를 그대로 유지하면서 KV‑cache를 크게 절감할 수 있다. 실험에서는 Qwen2.5‑VL, InternVL‑2.5, DeepSeek‑VL2, LLaVA‑v1.5 네 모델에 대해 RefCOCO, RefCOCO+, RefCOCOg 등 시각 그라운딩 데이터와 OCR, Hallucination, VQA 등 다양한 작업을 평가했다. 평균 토큰 감소율은 48%~52%이며, 전체 성능 저하율은 0.3% 이하, 일부 작업에서는 1%~2%의 성능 향상이 관찰되었다. 특히 기존 프루닝 기법에 IVC 토큰을 추가하면 공간 추론 성능이 크게 회복되는 것이 확인되었다.

이 연구는 LVLM이 RoPE를 통해 암묵적인 좌표계를 구축한다는 새로운 관점을 제공함으로써, 토큰 프루닝이 단순히 “중요도”만을 기준으로 할 때 발생하는 공간 정보 손실을 근본적으로 해결한다는 점에서 의미가 크다. 또한 훈련‑무료이면서 프롬프트 의존성을 고려한다는 점은 실시간 서비스 적용 가능성을 크게 높인다.

IVC‑Prune: LVLM의 숨은 시각 좌표를 활용한 토큰 프루닝

초록

상세 분석

댓글 및 학술 토론

의견 남기기