프롬프트 안내형 풀링으로 18배 토큰 압축, 효율적인 비디오 LLM

프롬프트 안내형 풀링으로 18배 토큰 압축, 효율적인 비디오 LLM
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PPLLaVA는 사용자 질의와 연관된 영상 영역을 CLIP 기반 시각‑프롬프트 정렬로 찾아내고, 이를 3D 컨볼루션 스타일 풀링에 적용해 최대 18배까지 토큰을 압축한다. 텍스트 컨텍스트 길이를 확장하는 모듈과 결합해 긴 영상·다중 턴 대화에서도 높은 정확도를 유지하면서 추론 속도를 크게 향상시킨다.

상세 분석

본 논문은 비디오 기반 대형 언어 모델(Video LLM)에서 발생하는 시각 토큰 폭발 문제를 근본적으로 해결하고자 한다. 기존 방법들은 전체 프레임을 그대로 LLM에 입력하거나, 단순 평균 풀링·키프레임 선택 등 보수적인 토큰 감소 전략을 사용해 왔으며, 이는 연산 비용을 크게 늘리면서도 영상의 중복성을 충분히 활용하지 못한다는 한계가 있었다. PPLLaVA는 이러한 한계를 ‘프롬프트‑가이드 풀링’이라는 새로운 패러다임으로 전환한다. 첫 단계에서 CLIP‑ViT 이미지 인코더와 텍스트 인코더를 이용해 사용자 질의와 영상 토큰 간의 유사도 스코어를 계산한다. 이 스코어는 각 프레임·패치가 질문에 얼마나 관련 있는지를 정량화한 ‘프롬프트‑비전 연관 지도’를 만든다. 이후 이 연관 지도를 3차원 컨볼루션 커널처럼 사용해, 공간·시간 차원에서 가중치를 부여한 어댑티브 풀링을 수행한다. 풀링 연산은 stride와 출력 해상도를 자유롭게 지정할 수 있어, 90% 이상 토큰을 압축하면서도 중요한 시각 정보를 보존한다. 또한, 기존 CLIP 텍스트 인코더의 토큰 길이 제한을 완화하기 위해 비대칭 포지셔널 임베딩 확장 모듈을 도입, 긴 대화형 프롬프트도 손실 없이 처리한다. 실험 결과, 동일 토큰 수 조건에서 기존 LLaVA‑Video 대비 6.86%·4.4%의 성능 향상을 보였으며, 전체 토큰을 ¼ 수준으로 줄였음에도 전반적인 정확도와 BLEU, CIDEr 등 메트릭에서 SOTA를 달성했다. 특히, 영상‑질문 쌍의 ‘인증 길이’를 이용한 중복도 분석에서, 프레임을 수동으로 선택했을 때와 비교해 자동 프롬프트‑가이드 풀링이 거의 동일한 성능 향상을 제공함을 확인했다. 파라미터 측면에서도 Q‑Former 대비 10배 이하의 부하만 추가되며, 사전 학습 없이 instruction‑tuning 단계에 바로 삽입할 수 있다는 실용성을 갖는다. 다양한 베이스 모델(LLaVA‑Next, LLaVA‑Video, InternVL‑3)과의 호환 실험에서도 일관된 개선 효과를 보여, 제안 방법이 현재 멀티모달 LLM 생태계에 범용적으로 적용 가능함을 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기