적응형 토큰 프루닝으로 비전 언어 모델 추론 가속화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AdaptInfer는 비전‑언어 모델(VLM)에서 시각 토큰을 동적으로 제거하는 플러그인 방식 프루닝 프레임워크이다. 레이어별 텍스트‑텍스트(t2t) 어텐션을 활용해 텍스트 토큰의 중요도를 실시간으로 추정하고, 이를 가중치로 사용해 텍스트‑시각(t2v) 어텐션 점수를 재조정한다. 또한, 교차 어텐션 변곡점을 분석해 1·10·20 레이어 등에서 집중적으로 프루닝하도록 스케줄을 설계한다. 실험 결과 LLaVA‑1.5‑7B에서 CUDA 지연을 61 % 감소시키면서 평균 정확도 93.1 %를 유지했으며, 동일 토큰 예산 하에서 기존 최첨단 방법보다 높은 정확도를 달성한다.

상세 분석

AdaptInfer는 기존 비전‑언어 모델 가속화 연구가 간과해 온 두 가지 핵심 문제를 해결한다. 첫 번째는 텍스트 프롬프트의 정적 활용이다. 기존 SparseVLM 등은 사전에 선택된 텍스트 토큰만을 기준으로 시각 토큰을 평가하지만, 논문은 t2t 어텐션 맵을 레이어별로 집계해 텍스트 토큰의 중요도가 층마다 크게 변한다는 실증적 증거(mIoU ≈ 0.17)를 제시한다. 이를 기반으로 각 레이어에서 “soft prior” w를 계산하고, 이 prior을 t2v 어텐션에 전치(transpose)하여 시각 토큰 점수 s에 곱함으로써, 현재 가장 영향력 있는 텍스트 토큰이 시각 토큰 선택에 직접 반영되도록 설계했다. 이 과정은 기존 어텐션 연산을 재사용하므로 추가 연산량이 거의 없으며, 학습 없이 플러그인 형태로 적용 가능하다.

두 번째 문제는 프루닝 시점의 비합리적 설정이다. 저자들은 1,000개 샘플에 대해 t2v 어텐션 누적값을 추적하고, 변화점 탐지(Truong et al., 2020)를 적용해 어텐션이 급격히 변하는 레이어를 식별했다. 결과는 LLaVA‑1.5‑7B에서 레이어 1, 10, 20, Qwen2‑VL‑2B에서는 레이어 0, 9, 19에 변곡점이 집중된다는 일관된 패턴이다. 이러한 변곡점은 시각 토큰이 처음으로 중요한 정보를 획득하거나, 이미 충분히 활용된 후 중복되는 시점으로 해석된다. 따라서 프루닝을 해당 레이어 직후에 수행하면 불필요한 토큰을 조기에 제거하면서도 핵심 정보를 보존할 수 있다.

복잡도 분석에서는 전체 프리필 단계 FLOPs = 4 n d² + 2 n² d + 3 n d m, 여기서 n은 현재 시퀀스 길이(T+V)이다. 프루닝 레이어에서 추가되는 FLOPs는 T² + 2 T V에 불과해 메인 트랜스포머 연산에 비해 무시할 수준이다. 실험에서는 LLaVA‑1.5‑7B에 30 % 토큰 예산을 적용했을 때, CUDA 지연이 61.3 % 감소하고 정확도 손실이 0.9 % 미만에 머물렀다. 다양한 멀티모달 벤치마크(MME, TextVQA, COCO‑Caption 등)와 다른 백본(Qwen2‑VL‑2B)에서도 동일한 추세가 확인돼 방법의 일반화 가능성이 높다.

또한, Ablation 실험을 통해 (1) 정적 텍스트 프롬프트 vs. 동적 t2t 기반, (2) 변곡점 기반 스케줄 vs. 균등 프루닝, (3) 프루닝 비율에 따른 정확도-지연 트레이드오프를 상세히 분석했다. 동적 텍스트 가이드는 정적 대비 평균 1.8 % 정확도 향상을, 변곡점 스케줄은 동일 프루닝 비율에서 평균 4 % 지연 감소를 제공한다.

한계점으로는 (i) t2t 어텐션이 충분히 풍부한 대형 LLM에 의존한다는 점, (ii) 프루닝 레이어가 사전에 정의돼야 하므로 매우 얕은 모델이나 비표준 아키텍처에선 추가 연구가 필요하다는 점을 언급한다. 향후 연구에서는 텍스트‑시각 어텐션의 상호작용을 더 정교히 모델링하거나, 프루닝 시점을 자동으로 결정하는 강화학습 기반 메커니즘을 탐색할 여지가 있다.

적응형 토큰 프루닝으로 비전 언어 모델 추론 가속화

초록

상세 분석

댓글 및 학술 토론

의견 남기기