긴 영상 이해를 위한 적응형 샘플링·압축 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 장시간 비디오를 효율적으로 처리하기 위해 정보 밀도 기반 적응형 프레임 샘플러(AVS)와 자동인코더 기반 시공간 비디오 압축기(SVC)를 제안한다. 두 모듈은 멀티모달 대형 언어 모델(MLLM)과 연동되어 64배 압축률을 달성하면서도 핵심 시각 정보를 보존한다. 다양한 벤치마크에서 토큰 사용량을 80% 절감하면서도 최신 방법들을 능가하는 성능을 기록한다.

상세 분석

본 연구는 장시간 비디오 이해에서 발생하는 두 가지 근본적인 문제—프레임 수 증가에 따른 메모리·연산 부담과 영상 내 중복·불필요 정보의 과다 발생—를 동시에 해결하고자 한다. 첫 번째 핵심 기법인 적응형 비디오 샘플러(AVS)는 영상 전체에 샷 경계 탐지기를 적용해 각 프레임의 “정보 변화 점수”를 추정한다. 이후 비최대 억제(NMS)와 Top‑K 선택을 통해 정보 밀도가 높은 프레임만을 골라내며, 이는 기존의 균일 샘플링이 놓치는 중요한 순간을 효과적으로 포착한다는 점에서 의미가 크다. 특히 샷 경계 탐지를 “장면·시퀀스” 개념과 연결시켜, 장시간 영상이 내부적으로 여러 연속적인 정보 튜블릿으로 구성된다는 가정을 명시함으로써, 프레임 선택 과정이 영상의 구조적 특성을 반영하도록 설계하였다.

두 번째 핵심인 시공간 비디오 압축기(SVC)는 자동인코더(AE) 구조를 채택한다. 입력 비디오 프레임을 ViT 기반 인코더로 추출한 시공간 토큰 f를 압축기 C를 통해 잠재 표현 h(시간·공간 차원 축소)로 변환하고, 디코더 D가 이를 복원한다. 학습 목표는 복원 손실 L_rec = |f‑ĥ|를 최소화하는 것이며, 인코더는 고정된 채 압축기와 디코더만을 최적화한다. 이 방식은 텍스트‑비디오 정렬 데이터가 필요 없는 “비디오 전용” 학습이 가능하다는 장점을 제공한다. 결과적으로 64배 압축률을 달성하면서도, 평균 풀링이나 단순 토큰 병합 방식에 비해 시각적 디테일과 동작 정보를 더 잘 보존한다는 실험적 증거가 제시된다.

통합 파이프라인은 AVS → ViT 인코더 → SVC → MLLM(Qwen‑2) 순으로 흐르며, 압축된 토큰 집합만을 LLM에 전달한다. 토큰 예산이 크게 절감되므로, LLM은 장시간 영상을 전체적으로 처리하면서도 복잡한 시맨틱 추론, 대화형 QA, 상황 인식 등을 수행할 수 있다. 실험에서는 EgoSchema, PercepTest 등 장시간 영상 이해 벤치마크에서 기존 최첨단 방법(LLaVA‑OV 등)을 각각 2.6%·3.3% 상회했으며, 시각 토큰 사용량은 20% 수준으로 감소했다. 또한, 일반적인 비디오 분류·액션 인식 데이터셋에서도 경쟁력 있는 정확도를 유지한다. Ablation 연구를 통해 AVS와 SVC 각각이 독립적으로도 성능 향상을 가져오지만, 결합했을 때 압축 효율과 정확도 모두에서 시너지 효과가 가장 크게 나타남을 확인하였다.

이 논문의 주요 공헌은 (1) 정보 밀도 기반 샷 경계 탐지를 활용한 적응형 프레임 샘플링 기법, (2) 비디오‑전용 자동인코더 압축기 설계 및 64배 압축 달성, (3) 두 모듈을 MLLM과 원활히 통합해 토큰 예산을 크게 절감하면서도 장시간 영상 이해 성능을 향상시킨 점이다. 향후 연구에서는 Mamba와 같은 선형 복잡도 시퀀스 모델을 비디오 백본으로 도입하거나, 압축된 잠재 토큰을 직접 LLM의 어텐션에 활용하는 방안을 탐색할 여지가 있다.

긴 영상 이해를 위한 적응형 샘플링·압축 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기