비디오 이해를 위한 네이티브 희소 어텐션 스케일링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

VideoNSA는 Qwen2.5‑VL에 네이티브 희소 어텐션(NSA)을 적용해 영상‑텍스트 멀티모달 모델의 컨텍스트 길이 한계를 극복한다. 영상 토큰에만 희소 어텐션을 사용하고 텍스트에는 기존의 dense GQA를 유지함으로써 128K 토큰까지 3.6%의 어텐션 비용만으로 장시간 비디오의 시간·공간 추론 성능을 크게 향상시킨다.

상세 분석

본 논문은 멀티모달 대형 언어 모델(MLLM)에서 비디오 입력이 차지하는 토큰 수가 급증함에 따라 발생하는 메모리·연산 병목을 해결하고자 한다. 기존 접근법은 (1) 프레임 샘플링을 늘려 토큰 수를 증가시키거나, (2) 토큰 압축(Compression) 기법으로 정보를 손실시키는 방법을 사용했지만, 장시간 비디오의 미세한 전이와 복잡한 시간적 관계를 포착하는 데 한계가 있었다.

VideoNSA는 이러한 한계를 넘어선다. 핵심 아이디어는 Native Sparse Attention (NSA) 를 비디오 토큰에만 적용하고, 텍스트 토큰은 Grouped‑Query Attention (GQA) 로 처리하는 하이브리드 설계이다. NSA는 세 가지 서브‑브랜치(Compression, Selection, Sliding‑Window)를 동적으로 가중합하는 learnable gate 로 구성된다.

Compression 브랜치는 연속된 키‑밸류(KV) 블록을 MLP φ 로 평균·축소해 토큰 수를 크게 줄인다. 블록 크기 m 와 스트라이드 d 를 조절해 시간 해상도와 공간 해상도 사이의 트레이드오프를 제어한다.
Selection 브랜치는 각 블록에 중요도 점수 p 를 부여하고, 상위 n 블록만 선택한다. 이는 비디오에서 핵심 순간(예: 골, 충돌 등)을 직접적으로 강조한다.
Sliding‑Window 브랜치는 최근 w 프레임을 고정 윈도우 형태로 유지해 지역적 연속성을 보장한다.

세 브랜치의 출력은 두‑계층 MLP g 가 sigmoid 로 스케일링한 가중치와 곱해져 최종 어텐션 출력 oₜ 로 합쳐진다. 이 구조는 하드웨어‑어웨어 설계와도 일치한다. GPU 메모리 사용량을 최소화하면서도 KV 캐시를 효율적으로 재사용하도록 설계돼, 128K 토큰 컨텍스트에서도 3.6%의 어텐션 비용만 소모한다.

텍스트 토큰에 대해서는 기존 Qwen2.5‑VL이 사용하던 dense FlashAttention 대신 GQA 를 적용해, 여러 쿼리 헤드가 공유하는 KV 헤드 수를 28→4 로 축소함으로써 KV 캐시 규모를 크게 감소시켰다. 이는 텍스트‑비디오 혼합 입력에서도 텍스트의 지시 수행 능력을 유지한다.

학습 측면에서는 216K 비디오‑명령 쌍(4 fps, 350‑550 프레임)으로 end‑to‑end 파인튜닝을 진행했으며, 최대 36K 토큰(50 k 픽셀/프레임) 제한 하에 SWIFT 옵티마이저와 FLA 기반 NSA 구현을 사용해 4600 GPU‑hour(H100) 를 소모했다.

실험 결과는 네 가지 주요 발견을 제시한다.

(1) 128K 토큰까지 안정적인 스케일링이 가능하고, 훈련 시 사용한 컨텍스트보다 더 긴 비디오에서도 성능 저하가 거의 없다.
(2) 고정된 어텐션 예산 하에서 글로벌‑로컬 어텐션 비율을 최적화하면, 장시간 비디오와 고해상도 프레임 사이에서 가장 높은 정확도를 얻는다.
(3) 브랜치 사용 패턴이 레이어 깊이에 따라 달라지며, 얕은 레이어에서는 Selection·Compression이 활발히 작동하고, 깊은 레이어에서는 Sliding‑Window가 주도한다.
(4) 학습된 희소 어텐션 가중치를 dense 버전으로 전이했을 때도 성능 향상이 관찰돼, 희소 구조가 모델의 표현력을 강화한다는 점을 확인한다.

비교 실험에서는 토큰 압축 기반 모델과 기존 training‑free 희소 어텐션(예: Tri‑Shape, FlexPrefill 등) 대비 LongVideoBench, TimeScope, Tomato, VSIBench 등 장시간·시간‑공간 추론 벤치마크에서 전반적으로 1‑3%p 상승을 기록했다. 특히 10시간 규모의 LongTimeScope에서는 기존 최첨단 대비 격차를 크게 줄였다.

Ablation 연구에서는 단일 브랜치(예: Compression만) 혹은 두 브랜치 조합만 사용할 경우 성능이 크게 떨어짐을 보여, 세 브랜치를 동적 게이팅으로 결합하는 것이 필수적임을 증명한다. 또한, 어텐션 Sink 현상을 분석해 Selection 브랜치는 거의 sink를 형성하지 않으며, Compression 브랜치는 주기적인 sink를 만들어 장시간 컨텍스트에서 정보 흐름을 재조정한다는 흥미로운 현상을 보고한다.

요약하면, VideoNSA는 하드웨어‑친화적, 학습 가능한 희소 어텐션을 비디오‑텍스트 멀티모달 모델에 성공적으로 적용함으로써, 토큰 수를 폭발적으로 늘리지 않고도 장시간 비디오의 시간·공간 이해 능력을 크게 향상시킨다. 이는 차세대 멀티모달 LLM이 실제 영상 스트리밍, 스포츠 해설, 장편 영화 요약 등 실시간·초고해상도 비디오 응용에 바로 활용될 수 있음을 시사한다.

비디오 이해를 위한 네이티브 희소 어텐션 스케일링

초록

상세 분석

댓글 및 학술 토론

의견 남기기