플래시VID 훈련 없이 비디오 대형 언어 모델 효율화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
플래시VID는 시공간 토큰 선택(ADTS)과 트리 기반 시공간 토큰 병합(TSTM) 두 단계로 구성된 훈련‑무료 가속 프레임워크이다. 시각 토큰을 10%만 남겨도 LLaVA‑OneVision 대비 99.1% 성능을 유지하며, Qwen2.5‑VL은 동일 연산량에서 10배 더 긴 영상 입력을 처리해 8.6% 성능 향상을 달성한다.
상세 분석
본 논문은 비디오 대형 언어 모델(VLLM)의 핵심 병목인 시각 토큰 수 폭증 문제를 해결하기 위해 두 가지 혁신적인 모듈을 제안한다. 첫 번째 모듈인 Attention and Diversity‑based Token Selection(ADTS)은 각 프레임에서
댓글 및 학술 토론
Loading comments...
의견 남기기