- Title: LinMU Multimodal Understanding Made Linear
- ArXiv ID: 2601.01322
- 발행일: 2026-01-04
- 저자: Hongjie Wang, Niraj K. Jha
📝 초록
> 최근의 비전-언어 모델(VLMs)은 인상적인 성능을 보여주지만, 자기 주의력(self-attention)의 이차적 복잡도로 인해 엣지 장치에서의 배포가 제한되며, 고해상도 이미지와 긴 컨텍스트 비디오에 대한 이해를 수행하는 데 큰 비용이 발생한다. 이러한 문제를 해결하기 위해 우리는 LinMU(Linear-complexity Multimodal Understanding)을 소개한다. 이 모델은 자기 주의력 기반 VLMs의 성능을 유지하면서 모든 자기 주의력 층을 M-MATE 블록으로 대체하여 선형 복잡도를 달성한다. M-MATE 블록은 전역 컨텍스트를 포착하기 위한 양방향 상태 공간 모델(Flex-MA 분기)과 인접한 상관관계를 처리하는 로컬 Swin 주의력(Local-Swin 분기)을 결합한 이중 분기 모듈이다. 기존 VLM을 LinMU 아키텍처로 변환하기 위해, 우리는 세 단계의 지식 추출(distillation) 프레임워크를 제안한다: (i) 양 분기를 자기 주의력 가중치로 초기화하고 Flex-MA 분기만 학습, (ii) Local-Swin 분기를 해동하여 두 분기를 함께 조정, (iii) 나머지 블록을 LoRA 어댑터를 사용해 조정하면서 동결된 VLM 교사의 은닉 상태와 토큰 수준 로짓에 대해 회귀한다. MMMU, TextVQA, LongVideoBench, Video-MME 등의 벤치마크에서 LinMU는 교사 모델과 유사한 성능을 보이면서 Time-To-First-Token(TTFT)을 최대 2.7배 줄이고 분단위 비디오의 토큰 처리 속도를 최대 9.0배 개선한다.
💡 논문 해설
#### 간략한 설명
LinMU의 주요 기여: LinMU는 자기 주의력 모듈을 대체하여 선형 복잡도를 달성함으로써, 고해상도 이미지와 긴 컨텍스트 비디오 처리에 대해 비용 효율적인 VLM을 제공한다.
M-MATE 블록: LinMU는 이중 분기 모듈인 M-MATE 블록을 사용하여 전역 컨텍스트와 로컬 상관관계를 동시에 처리한다.
지식 추출 프레임워크: 세 단계의 지식 추출 프레임워크를 통해 기존 VLM에서 LinMU로 성능 손실 없이 전달할 수 있다.
메타포적 설명
LinMU는 마라토너와 같다: 고해상도 이미지와 긴 비디오 처리는 마치 장거리 달리기와 같으며, LinMU는 빠르고 효율적인 마라톤 선수처럼 이 문제를 해결한다.
M-MATE 블록은 두 손: M-MATE 블록의 양 분기는 전역 컨텍스트와 로컬 상관관계를 동시에 처리하는 것과 같아, 한손으로 전반적인 그림을 그리고 다른 손으로 세부 사항을 다루는 것처럼 작동한다.
지식 추출 프레임워크는 가이드: 기존 VLM에서 LinMU로의 지식 전달은 마치 경험 많은 선수가 신인에게 자신의 기술과 노하우를 가르쳐, 신인이 빠르게 성장하도록 돕는 것과 같다.
Sci-Tube 스타일 스크립트
초급: “LinMU는 고해상도 이미지와 긴 비디오 처리에 대한 문제를 해결하는 새로운 모델입니다. 이 모델은 기존 VLM의 성능을 유지하면서 더 빠르고 효율적으로 작동합니다.”
중급: “LinMU는 자기 주의력 대신 M-MATE 블록을 사용해 전역 컨텍스트와 로컬 상관관계를 동시에 처리하고, 세 단계의 지식 추출 프레임워크로 기존 VLM에서 성능을 효과적으로 이어받습니다.”
고급: “LinMU는 M-MATE 블록과 세 단계의 지식 추출 프레임워크를 통해 선형 복잡도를 달성하고, 고해상도 이미지와 긴 컨텍스트 비디오 처리에 있어 기존 VLM보다 효율적이며 성능을 유지합니다.”
📄 논문 발췌 (ArXiv Source)
**maketitle thanks aketitle**
Abstract
최근의 비전-언어 모델(VLMs)은 인상적인 성능을 보여주지만, 자기 주의력(self-attention)의 이차적 복잡도로 인해 엣지 장치에서의 배포가 제한되며, 고해상도 이미지와 긴 컨텍스트 비디오에 대한 이해를 수행하는 데 큰 비용이 발생한다. 이러한 문제를 해결하기 위해 우리는 LinMU(Linear-complexity Multimodal Understanding)을 소개한다. 이 모델은 자기 주의력 기반 VLMs의 성능을 유지하면서 모든 자기 주의력 층을 M-MATE 블록으로 대체하여 선형 복잡도를 달성한다. M-MATE 블록은 전역 컨텍스트를 포착하기 위한 양방향 상태 공간 모델(Flex-MA 분기)과 인접한 상관관계를 처리하는 로컬 Swin 주의력(Local-Swin 분기)을 결합한 이중 분기 모듈이다. 기존 VLM을 LinMU 아키텍처로 변환하기 위해, 우리는 세 단계의 지식 추출(distillation) 프레임워크를 제안한다: (i) 양 분기를 자기 주의력 가중치로 초기화하고 Flex-MA 분기만 학습, (ii) Local-Swin 분기를 해동하여 두 분기를 함께 조정, (iii) 나머지 블록을 LoRA 어댑터를 사용해 조정하면서 동결된 VLM 교사의 은닉 상태와 토큰 수준 로짓에 대해 회귀한다. MMMU, TextVQA, LongVideoBench, Video-MME 등의 벤치마크에서 LinMU는 교사 모델과 유사한 성능을 보이면서 Time-To-First-Token(TTFT)을 최대 2.7배 줄이고 분단위 비디오의 토큰 처리 속도를 최대 9.0배 개선한다.
Introduction
최근 비전-언어 모델(VLMs)은 다양한 이미지와 비디오 중심 벤치마크에서 우수한 다중 모달 이해 성능을 보여주며, 때때로 완전히 감독된 시스템에 맞먹거나 그 이상의 성능을 내는 경우가 많다. VLMs는 의학, 원격 센싱, 로봇 공학, 자율 주행, 농업, 과학교육 등 다양한 분야에서 널리 배포되고 있다. 그러나 이러한 성과에는 상당한 계산 부하가 동반된다. 전역 자기 주의력은 토큰 수에 이차적으로 스케일링되므로, 몇 분짜리 고해상도 비디오를 처리하기 위해서는 강력한 GPU 클러스터나 과격한 프레임 샘플링이 필요하다. 이를 통해 현재 최고의 모델을 실제 배포하는 데 제약이 생기며, 선형 복잡도 대안에 대한 연구가 진행되고 있다.
본 논문에서는 다중 모달 이해에서 이차적 복잡도 장벽을 깨는 것을 목표로 한다. 우리는 LinMU (Linear-complexity Multimodal Understanding) 를 제안한다. LinMU는 모든 자기 주의력 층을 선형 복잡도 모듈로 대체하면서 모델 성능을 유지하는 프레임워크다. 최근에 소개된 LinGen의 MATE 블록에서 영감을 받아, 우리는 자기 주의력을 대체할 선형 비용의 모듈인 M-MATE (Multimodal-MATE) 블록을 제안한다. M-MATE 블록은 두 가지 보완적인 분기를 포함한다: (i) 긴 거리 의존성을 효율적으로 포착하기 위한 마스킹 양방향 Mamba2 모델 기반의 Flex-MA 분기, (ii) 짧은 거리 공간-시간 상관관계에 집중하는 고정된 작은 윈도우 크기의 3D Swin 주의력(Local-Swin 분기). 각 M-MATE 블록은 토큰 수에 대해 $`O(N)`$ 시간에 실행되며, 상태 공간 모델(SSM)과 고정 크기 윈도우 연산에서 선형 확장성을 물려받는다. LinMU에서는 네트워크 전체의 자기 주의력을 M-MATE로 대체하여 주어진 컴퓨팅 예산으로 기존 트랜스포머보다 훨씬 긴 컨텍스트를 처리할 수 있다.
M-MATE 레이어로 이차적 복잡도 주의력 층을 대체하여 LinMU는 모델 성능을 희생하지 않고 선형 복잡도를 달성한다.
선형 아키텍처를 완전히 채택하면 정확성이 저하될 위험이 있다. 따라서 우리는 예측된 주의력 기반 교사 모델의 능력을 LinMU로 전달하기 위한 신중한 지식 추출 전략을 사용한다. 구체적으로, 우리는 강력한 VLM 교사를 LinMU 학생으로 이식하는 다단계 지식 추출 파이프라인을 설계한다: (1) Flex-MA 분기만 교사의 전역 주의력을 모방하도록 학습, (2) Local-Swin 분기를 함께 조정하여 로컬 상관관계를 회복하고, (3) 전체 M-MATE 증강 모델(다른 백본 층을 낮은 차원 어댑터로 조정)을 공동으로 조정하여 성능 격차를 최소화한다. 추출 과정에서 우리는 토큰 수준과 시퀀스 수준 손실의 결합을 최적화하여 학생의 예측을 교사의 출력에 맞춘다(교사의 부드러운 타겟 및 가상 레이블로 교사를 생성하는 크로스 엔트로피를 따름). 또한 추출 목표에 은닉 특성 정렬 손실을 포함하여 수렴을 더 빨리 이끌어 낸다. 이 다단계 추출 프레임워크는 주의력에서 선형 복잡도 M-MATE 블록으로의 부드러운 전환을 보장하며, 이해 능력을 희생하지 않는다.
우리는 다음과 같은 기여를 요약한다:
우리는 LinMU라는 첫 번째 다중 모달(비전-언어) 모델을 제시한다. 이 모델은 자기 주의력 대신 M-MATE 블록을 사용하여 입력 길이에 대해 순수 선형 복잡도를 달성하며, 모델 성능을 희생하지 않는다. LinMU는 소규모 하드웨어에서 분단위 비디오와 고해상도 이미지 이해를 가능하게 하며, 표준 VLM보다 훨씬 더 높은 확장성을 제공한다.
우리는 표준 트랜스포머 기반 VLM의 지식을 우리의 선형 아키텍처로 이전하기 위한 다단계 추출 프레임워크를 개발한다. 교사의 프로젝션 가중치를 재사용하여 마스킹 양방향 Mamba2 모델(Flex-MA 분기)과 3D Swin 주의력(Local-Swin 분기)을 초기화하고, 신중하게 설계된 추출 손실을 사용하여 원래 교사 모델의 정확성을 크게 유지한다.
우리는 어려운 이미지와 비디오 이해 벤치마크를 사용하여 LinMU가 교사 모델(NVILA-8B-Video 및 Qwen2.5-VL-7B-Instruct)과 동등한 성능을 달성하면서 효율성을 크게 향상시키는 것을 보여준다. 실험에서 LinMU는 MMMU, LongVideoBench, Video-MME와 같은 작업에서 경쟁력을 유지하며 TTFT 및 토큰 처리 속도 측면에서 매우 빠른 추론을 가능하게 하며 선형 확장성을 검증한다. 또한 우리는 각 추출 단계와 손실 항목의 영향을 정량화하고, Flex-MA 및 Local-Swin 분기가 교사 성능 유지에 중요함을 확인하는 추출 연구를 제시한다.
전반적으로 LinMU는 다중 모달 트랜스포머를 선형으로 만들면서 그 놀라운 이해 능력을 희생하지 않음을 보여준다. 이는 컨텍스트 길이(예: 더 많은 비디오 프레임 또는 고해상도 특징 사용) 확장 및 실시간이나 자원 제한 환경에서의 VLM 배포를 가능하게 하며, 이전에는 이차 비용으로 인해 불가능했다.
본 논문의 나머지 부분은 다음과 같이 구성된다. Section [sec:related]에서는 최근 VLMs의 진전과 그 효율성을 높이기 위한 이전 노력에 대해 조사한다. Section [sec:Method]에서는 LinMU 프레임워크를 소개하며, M-MATE 블록과 우리의 세 단계 추출 파이프라인을 상세히 설명한다. Section [sec:experiment]에서는 LinMU의 성능 및 효율성을 평가하기 위한 포괄적인 실험과 각 추출 단계, 손실 항목, 블록 구성 요소에 대한 추출 연구를 제시한다. 마지막으로 Section [sec:conclusion]에서는 논문을 정리하고 향후 작업 방향을 제시한다.
Related Work
이 섹션에서는 우리의 기여가 세 가지 보완적인 연구 분야에 어떻게 위치하는지 살펴본다. 첫째, 우리는 고용량 트랜스포머 기반 아키텍처를 중점으로 한 현대 VLMs의 진화를 리뷰한다(Section [sec:recent_vlms]). 둘째, 우리는 주로 토큰 가위질과 구조적 압축을 통해 VLMs의 효율성을 개선하는 방법을 논의하며, 여기서 기본 주의력 백본은 변경되지 않는다(Section [sec:effi_vlms]). 셋째, 우리는 상태 공간 및 순환 아키텍처를 포함한 주의력의 선형 복잡도 대안을 조사하며, 이는 가장 밀접하게 우리의 제안 프레임워크와 관련이 있다(Section [sec:linear_vlms]).
Large Vision-Language Models
최근 몇 년 동안 대형 VLMs는 높은 용량의 언어 백본과 시각 인코더를 다중 모달 프로젝터와 트랜스포머 주의력 층을 통해 결합하는 데 급진적인 진전을 보였다. 초기 모델인 Flamingo, BLIP-2, MiniGPT-4 및 LLaVA는 이제 표준이 된 동결된 시각 인코더를 사용하여 이미지 토큰을 생성하고 이를 언어 모델(LLM)에 주입하는 레시피를 확립했다.
현대 오픈 소스 모델은 이 패러다임을 더 높은 용량과 더 넓은 모달로 밀고 나간다. Qwen2-VL 및 최근의 Qwen2.5-VL 시리즈는 Qwen 언어 백본에 ViT 스타일의 간소화된 인코더와 개선된 시각 프로젝터를 추가하여 원래 해상도에서 이미지, 문서, 비디오 처리 및 긴 컨텍스트를 지원한다. Qwen2.5-VL은 MMMU 및 MathVista와 같은 다양한 벤치마크에서 경쟁력을 유지하면서 여전히 완전히 트랜스포머 기반으로, LLM 디코더에 이차적 주의력이 있다.
LLaVA 시리즈는 유사한 설계를 따르지만 거의 모든 오픈 데이터로 훈련된다. LLaVA-NeXT는 LLaVA-1.5보다 더 나은 추론, OCR 및 세계 지식을 제공하며 비디오 이해까지 확장한다. LLaVA-OneVision은 원래 해상도 이미지에서 학습하고 완전한 오픈 훈련 파이프라인을 제공하여 성능을 더욱 향상시킨다.
NVILA는 “확장-압축” 패러다임을 도입하여 효율성과 정확성을 최적화한다. 기존 모델들이 해상도를 속도에 맞바꾸는 것과 달리, NVILA는 먼저 공간 및 시간 입력을 확장하여 세밀한 세부 사항을 포착하고 이를 시각 토큰으로 압축하여 추론 중 높은 처리량을 유지한다. 메타의 Llama-3.2-Vision 모델들은 긴 컨텍스트 윈도우에서 고정확도 이미지 추론 및 문서 이해를 최적화했다. InternVL-2.5는 시각 인코더(InternViT)에 특별히 최적화되어 세미언트 정렬을 통해 일반적인 CLIP 인코더보다 같은 양의 정보를 전달하기 위해 필요한 시각 토큰 수를 줄일 수 있다.
위에서 논의한 것처럼 최근 VLMs는 이미지, 문서 및 비디오 처리에 대한 통합 아키텍처를 탐색하고 있지만, 거의 모든 모델의 다중 모달 백본은 여전히 일반적인 자기 주의력 및 교차 주의력 트랜스포머로 구성된다. 따라서 계산과 메모리는 전체 토큰 수에 대해 이차적으로 스케일링되며, 고해상도 이미지, 다중 이미지, 비디오 입력으로 모델이 이동할수록 이를 처리하는 데 점점 더 큰 병목 현상이 발생한다.
Efficient Vision-Language Models with Attention
이차적 주의력의 비용을 완화하면서 기본 아키텍처를 변경하지 않기 위해 많은 연구는 토큰 축소, 구조적 가위질 및 기타 모델 압축 기술을 통해 VLMs의 효율성을 개선하는 데 초점을 맞춘다. 이러한 방법은 토큰 시퀀스(예: 가위질 및 압축), 네트워크 구조(예: 층 가위질, 추출) 및 시스템 수준(예: 양자화, KV-캐시 최적화)에서 작동하는 전략으로 분류될 수 있다.
시각 토큰 가위질 및 압축. 주요 연구들은 시각 토큰이 텍스트 토큰에 비해 매우 중복되어 있으며 LLM에 도달하는 시각 토큰의 수를 줄이는 것을 목표로 한다. FastV는 2단계 후에 약 절반의 이미지 토큰을 제거하여 플러그-앤-플레이 추론 프로시저를 제안하며, 이는 크게 속도가 빨라지고 정확성 손실이 최소화된다. Instruction-Guided Visual Token Pruning은 주의력 롤아웃 기반의 그룹 토큰 가위질 모듈을 소개하고 지시문을 사용하여 시각 인코더 및 LLM 내에서 어떤 시각 토큰을 가위질할지 안내한다. LLaVA-PruMerge는 클래스-토큰 주의력의 희소성을 활용한 시각 토큰의 적응적 축소를 제안하고, LLaVolta는 Visual Context Compressor와 새로운 학습 방법을 도입하여 검사 중에 최대 70%의 시각 토큰이 제거되도록 하며 정확성 저하가 미미하다. SparseVLM은 선택된 텍스트 토큰을 사용한 주의력을 활용해 시각 토큰을 순위 매기고 각 층에서 적응적으로 스파시파이션 비율을 결정하는 텍스트-가이드, 학습 없는 가위질 메커니즘을 제안한다. FEATHER 및 CoViPAL과 같은 관련 연구는 계층별 토큰 중요성과 문맥 의존성을 고려하여 이러한 아이디어를 정교화한다. PruneVid와 LLaVA-Scissor은 이러한 토큰 가위질 아이디어를 비디오 중심 VLMs에 배포한다.
아키텍처 압축. 토큰 수준의 스파시파이션을 넘어서, 여러 연구는 아키텍처 수준에서 VLMs를 압축한다. Short-LVLM은 불필요한 층을 식별하고 교차 모달 특성 변화를 보상하여 학습 없는 압축 프레임워크를 제안하며, 이는 모델 무관이며 토큰 수준 방법과 호환된다. ECoFLaP은 대략적인 계층별 가위질을 제안한다.