모바일 비디오GPT 실시간 영상 이해 모델
초록
모바일 비디오GPT는 10억 파라미터 미만의 경량 멀티모달 프레임워크로, 이중 경량 비주얼 인코더와 효율적인 토큰 프로젝터, 소형 언어 모델을 결합해 모바일 및 엣지 디바이스에서 실시간 영상 이해를 가능하게 한다. 프레임 스코어링 기반 키프레임 선택과 토큰 프루닝을 통해 연산량을 크게 줄이면서도 기존 0.5B 파라미터 모델 대비 평균 6점 높은 정확도를 달성한다.
상세 분석
본 논문은 모바일 및 엣지 환경에서의 영상 이해를 목표로, 기존 대규모 멀티모달 모델이 안고 있던 파라미터 폭주와 높은 연산 비용 문제를 근본적으로 해결하고자 한다. 핵심 설계는 네 가지 모듈로 구성된다. 첫째, CLIP 기반 이미지 인코더를 활용해 모든 프레임에서 고품질 공간 특징을 추출한다. 둘째, Attention‑Based Frame Scoring 메커니즘을 도입해 입력 영상의 T개 프레임 중 상위 K개(논문에서는 T=16, K=8)를 선택함으로써 불필요한 연산을 최소화한다. 이 과정에서 프레임별 중요도는 전체 토큰에 대한 공간 어텐션 매트릭스를 Softmax 후 합산해 산출되며, Top‑K 선택은 단순하지만 효과적인 프레임 필터링을 제공한다. 셋째, 선택된 키프레임은 경량 VideoMamba 인코더에 전달돼 시간적 동역학을 모델링한다. VideoMamba는 선형 복잡도 연산을 기반으로 하여 장시간 시퀀스에도 확장성을 유지한다. 넷째, Efficient Token Projector(ET‑Proj) 모듈은 이미지와 비디오 인코더 출력 각각에 적용되어, FFN → Adaptive Pool → Positional Encoder 순서로 토큰 차원을 압축한다. 특히 Adaptive Pool은 전역 평균 풀링과 학습 가능한 토큰 감소 매트릭스를 결합해 H×W 공간을 Hr×Wr로 축소하고, Positional Encoder는 스킵 연결을 통해 공간·시간 위치 정보를 보존한다. 이렇게 압축된 시각 토큰은 작은 언어 모델(Small LLM, 예: Qwen2‑0.5B)과 결합돼 질문‑응답, 캡션 생성, 시공간 추론 등 다양한 영상 기반 태스크를 수행한다.
효율성 측면에서 논문은 Jetson Orin Nano와 RTX A6000 두 플랫폼에서 각각 7.3 tokens/s와 45.9 tokens/s의 처리량을 기록했으며, 파라미터 수는 기존 0.5B 모델 대비 40 % 감소했다. 정확도는 MVBench, EgoSchema, NextQA, PercepTest 등 6개 벤치마크에서 평균 6점 상승했으며, 특히 시간 민감도가 높은 QA와 장시간 영상 이해에서 두드러진 성능 향상을 보였다. 또한, 사전 학습 단계에서 이미지 토큰 프로젝터와 비디오 토큰 프로젝터를 순차적으로 학습하고, 최종 단계에서 LoRA 기반 파인튜닝을 적용해 언어 모델의 적은 파라미터만을 효율적으로 조정한다는 훈련 파이프라인도 제시한다.
전체적으로 이 논문은 (1) 프레임 선택을 통한 입력 감소, (2) 토큰 차원 축소를 위한 경량 프로젝터, (3) 작은 언어 모델과의 효율적 결합이라는 세 축을 통해, 고성능·고효율을 동시에 달성한 최초의 모바일‑비디오 GPT 구현체라 할 수 있다. 향후 연구에서는 더 정교한 어텐션 기반 프레임 선택, 양자화 및 하드웨어 특화 최적화 등을 통해 추가적인 속도·메모리 절감이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기