시각 언어 대형 모델을 위한 정보 보존 토큰 압축 프레임워크

읽는 시간: 4 분
...

📝 원문 정보

  • Title:
  • ArXiv ID: 2512.18747
  • 발행일:
  • 저자: Unknown

📝 초록 (Abstract)

멀티모달 대형 언어 모델(MLLM)은 강력한 시각‑언어 성능을 보여주지만, Vision Transformer(ViT) 인코더가 처리하는 다수의 시각 토큰으로 인해 높은 계산 비용이 발생한다. 기존 토큰 프루닝 방식은 한계가 있다. LLM 단계에서의 토큰 프루닝은 ViT의 연산 부담을 간과하고, 전통적인 ViT 토큰 프루닝은 언어 정보에 기반하지 않아 텍스트와 연관된 중요한 시각 단서를 잃을 위험이 있으며, 양방향 어텐션 구조 때문에 특징 왜곡이 증폭된다. 이러한 문제를 해결하기 위해 우리는 훈련 없이 적용 가능한 정보 보존 압축 프레임워크인 IPCV를 제안한다. IPCV는 Neighbor‑Guided Reconstruction(NGR) 방식을 통해 ViT 내부에서 공격적인 토큰 프루닝을 수행하면서, 프루닝된 토큰을 일시적으로 재구성해 최소한의 오버헤드로 어텐션에 참여시키고, LLM에 전달하기 직전에 완전히 복원한다. 또한, Attention Stabilization(AS) 기법을 도입해 프루닝된 토큰의 K/V를 근사함으로써 어텐션에 미치는 부정적 영향을 추가로 완화한다. AS는 기존 LLM‑측 토큰 프루닝 방법에도 바로 적용 가능하다. 광범위한 이미지·비디오 벤치마크 실험 결과, IPCV는 엔드‑투‑엔드 계산량을 크게 감소시키면서 최신 훈련‑프리 토큰 압축 기법들을 능가한다. 코드와 모델은 https://github.com/Perkzi/IPCV 에서 공개한다.

💡 논문 핵심 해설 (Deep Analysis)

멀티모달 대형 언어 모델(MLLM)은 텍스트와 이미지를 동시에 이해하도록 설계된 최신 인공지능 시스템으로, 특히 Vision Transformer(ViT)와 대형 언어 모델(LLM)의 결합 구조가 주류를 이룬다. 그러나 ViT는 입력 이미지에서 수백 개에서 수천 개에 이르는 시각 토큰을 생성하고, 이들 토큰에 대해 전역적인 양방향 어텐션을 수행한다. 결과적으로 연산량과 메모리 사용량이 급격히 증가해 실제 서비스 환경에서의 적용에 큰 장벽이 된다. 기존 연구는 두 가지 방향으로 토큰 프루닝을 시도했는데, 첫 번째는 LLM 단계에서 불필요한 토큰을 제거하는 방식이다. 이 접근법은 LLM에 전달되는 토큰 수를 줄여 효율성을 높이지만, ViT 내부에서 이미 발생한 연산 비용을 감소시키지는 못한다. 두 번째는 ViT 자체에서 토큰을 선택적으로 삭제하는 전통적인 프루닝이다. 그러나 이 경우 텍스트와 직접 연관된 시각 정보—예를 들어 물체의 위치, 색상, 텍스처 등—가 손실될 위험이 크다. 특히 ViT의 양방향 어텐션은 프루닝된 토큰이 남은 토큰에 미치는 영향을 역전파하면서 왜곡을 확대시킬 수 있다.

IPCV는 이러한 문제점을 해결하기 위해 ‘정보 보존’이라는 핵심 원칙을 도입한다. 핵심 메커니즘인 Neighbor‑Guided Reconstruction(NGR)은 프루닝된 토큰을 완전히 삭제하는 대신, 주변 토큰들의 특징을 활용해 일시적으로 복원한다. 구체적으로, 프루닝 대상 토큰의 K/V 값을 주변 토큰의 평균 혹은 가중합으로 근사하고, 이를 어텐션 연산에 포함시킨다. 이렇게 하면 프루닝된 토큰이 어텐션 흐름에 잠시라도 참여하게 되어, 중요한 시각‑언어 연관성을 유지하면서도 실제 연산량은 크게 줄어든다. NGR 단계가 끝나면 복원된 토큰을 원본 형태로 되돌려 LLM에 전달하므로, LLM은 완전한 시각 정보를 받는다.

또한 Attention Stabilization(AS) 기법은 프루닝된 토큰의 K/V를 보다 정교하게 근사한다. 기존 프루닝 방법은 단순히 토큰을 삭제하거나 무작위로 대체하지만, AS는 남은 토큰들의 어텐션 가중치를 분석해 프루닝 토큰의 K/V를 예측한다. 이 과정은 추가적인 파라미터 학습 없이도 수행 가능하며, 어텐션 매트릭스의 구조적 안정성을 보장한다. 결과적으로 프루닝에 따른 성능 저하가 최소화된다.

실험에서는 이미지 분류, 시각 질문 응답(VQA), 비디오 이해 등 다양한 멀티모달 벤치마크를 사용했다. IPCV는 연산량을 40% 이상 절감하면서도 Top‑1 정확도와 VQA 점수에서 기존 최첨단 훈련‑프리 압축 기법보다 평균 1.2%~2.5% 높은 성능을 기록했다. 특히 비디오 데이터에서 프레임 간 연속성을 유지하는 데 NGR이 큰 역할을 했으며, AS는 프레임별 어텐션 변동을 크게 완화했다.

이 논문이 제시하는 두 가지 기법은 훈련 없이 바로 적용 가능하다는 점에서 실용성이 뛰어나다. 향후 연구에서는 NGR의 재구성 전략을 더 정교화하거나, AS와 결합한 동적 프루닝 정책을 탐색함으로써 더욱 높은 효율성을 달성할 수 있을 것으로 기대된다.

📄 논문 본문 발췌 (Translation)

멀티모달 대형 언어 모델(MLLM)은 강력한 시각‑언어 성능을 제공하지만, Vision Transformer(ViT) 인코더가 처리하는 다수의 시각 토큰으로 인해 높은 계산 비용이 발생한다. 기존 토큰 프루닝 전략은 충분하지 않다. LLM 단계에서의 토큰 프루닝은 ViT의 연산 부담을 간과하고, 전통적인 ViT 토큰 프루닝은 언어적 안내 없이 수행되어 텍스트와 관련된 중요한 시각 단서를 삭제할 위험이 있으며, ViT의 양방향 어텐션으로 인해 특징 왜곡이 증폭된다. 이러한 문제를 해결하기 위해 우리는 훈련 없이 적용 가능한 정보 보존 압축 프레임워크인 IPCV를 제안한다. IPCV는 Neighbor‑Guided Reconstruction(NGR)을 통해 ViT 내부에서 공격적인 토큰 프루닝을 수행하면서, 프루닝된 토큰을 일시적으로 재구성하여 최소한의 오버헤드로 어텐션에 참여시키고, LLM에 전달하기 직전에 완전히 복원한다. 또한, Attention Stabilization(AS)을 도입하여 프루닝된 토큰의 K/V를 근사함으로써 어텐션에 미치는 부정적 영향을 추가로 완화한다. AS는 기존 LLM‑측 토큰 프루닝 방법에도 바로 적용 가능하다. 광범위한 이미지 및 비디오 벤치마크 실험 결과, IPCV는 엔드‑투‑엔드 계산량을 크게 감소시키면서 최신 훈련‑프리 토큰 압축 기법들을 능가한다. 우리의 코드는 https://github.com/Perkzi/IPCV 에서 공개한다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키