멀티모달 대형 언어 모델을 위한 토큰 압축 최신 동향

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

멀티모달 LLM이 고해상도 이미지·긴 영상·대용량 오디오 등 장시간 입력을 처리하면서 발생하는 self‑attention의 2차 복잡도 문제를 해결하기 위해 토큰 압축 기법을 체계적으로 조사한다. 논문은 이미지, 영상, 오디오 중심의 세 가지 모달리티별 접근법을 제시하고, 변환‑기반, 유사도‑기반, 어텐션‑기반, 쿼리‑기반 네 가지 메커니즘으로 세분화한다. 각 방법의 설계 원리, 장·단점, 대표 논문을 정리하고, 현재 한계와 향후 연구 방향을 제시한다.

상세 분석

본 설문은 멀티모달 대형 언어 모델(MLLM)에서 토큰 수가 급증함에 따라 발생하는 메모리·연산 비용을 감소시키는 ‘토큰 압축’ 기술을 최초로 전면 정리한다. 먼저, 이미지, 영상, 오디오 각각이 갖는 고유한 중복 특성을 분석한다. 이미지에서는 인접 패치 간 색·텍스처 유사도가 높아 공간적 중복이 주를 이루며, 영상은 프레임 간 배경·동작의 연속성으로 시공간적 중복이 지배적이다. 오디오는 정적 구간·주파수 대역의 반복으로 시간·스펙트럼 중복이 존재한다. 이러한 모달리티별 특성을 고려해 압축 전략을 설계해야 한다는 점이 핵심 통찰이다.

논문은 압축 방법을 네 가지 메커니즘으로 구분한다.

변환 기반은 토큰 자체를 저차원 표현으로 변환하거나, 사전 학습된 변환자를 삽입해 토큰 수를 직접 줄인다. 예로 Intern VL1.5, Qwen2‑VL 등은 경량화된 비전 트랜스포머 구조를 도입한다.
유사도 기반은 토큰 간 코사인·거리 유사도를 계산해 중복 토큰을 클러스터링·프루닝한다. ToMe, AuroraCap, VisionZip 등이 대표적이며, 클러스터링 비용을 최소화하면서 정보 손실을 제한한다.
어텐션 기반은 인코더·디코더 어텐션 가중치를 활용해 중요도가 낮은 토큰을 동적으로 제거한다. PruMerge+, MustDrop, FastV 등은 어텐션 스코어를 직접 활용해 실시간 프루닝을 수행한다.
쿼리 기반은 LLM의 텍스트 쿼리 혹은 교차 모달리티 선택 메커니즘을 이용해 필요한 토큰만 선택한다. Token Distillation, Sparse VLM, Cross‑Modal Selection 기법이 여기에 속한다.

각 메커니즘은 장·단점이 뚜렷하다. 변환 기반은 구조적 변경이 필요해 재학습 비용이 크지만, 압축 비율이 높고 하드웨어 친화적이다. 유사도 기반은 사전 계산이 필요해 초기 비용이 크지만, 압축 후에도 원본 토큰 구조를 유지해 downstream 작업에 유연하게 적용 가능하다. 어텐션 기반은 모델 내부 신호를 직접 이용해 동적 압축이 가능하나, 어텐션 스코어 자체가 불안정할 경우 정보 손실 위험이 있다. 쿼리 기반은 사용자의 의도에 맞춘 선택적 압축이 가능하지만, 쿼리 설계와 교차 모달 정렬 정확도가 핵심이다.

또한, 논문은 현재 연구가 주로 단일 모달리티에 초점을 맞추고 있어 멀티모달 간 상호 보완적 압축 전략이 부족함을 지적한다. 예를 들어, 영상의 경우 프레임 간 유사도와 오디오의 동시 발생 구간을 연계해 공동 프루닝을 수행하는 방법이 아직 미비하다. 향후 연구는 통합 압축 프레임워크를 구축해 이미지‑영상‑오디오 토큰을 공동 최적화하고, 어댑티브 압축 스케줄링을 통해 입력 길이에 따라 실시간으로 압축 비율을 조절하는 방향이 유망하다.

마지막으로, 평가 기준의 표준화 필요성도 강조한다. 현재 대부분의 논문이 FLOPs·Latency·BLEU 등 개별 지표만 제시하는데, 멀티모달 일관성, 시각·청각 정밀도, LLM 응답 품질을 동시에 측정할 수 있는 벤치마크가 요구된다.

멀티모달 대형 언어 모델을 위한 토큰 압축 최신 동향

초록

상세 분석

댓글 및 학술 토론

의견 남기기