VTok: 공간‑시간을 분리한 통합 비디오 토크나이저

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

VTok은 비디오의 첫 프레임을 키프레임으로 사용해 풍부한 공간 토큰을 추출하고, 이후 프레임들은 키프레임과의 차이를 압축한 단일 residual 토큰으로 표현한다. 이 설계는 토큰 수를 O(T·S) 에서 O(T+S) 로 감소시키면서도 움직임과 시점 변화를 충분히 보존한다. 통합된 이해·생성 프레임워크에 적용해 텍스트‑비디오 이해와 텍스트‑비디오 생성 모두에서 기존 프레임‑샘플링 기반 토크나이저보다 높은 정확도와 더 일관된 동작을 달성한다.

상세 분석

VTok은 비디오 토크나이징의 근본적인 비효율성을 지적한다. 기존 비디오‑언어 모델은 프레임을 일정 간격으로 샘플링하고, 각 프레임을 2D 이미지 인코더에 통과시켜 얻은 토큰을 순차적으로 연결한다. 이 방식은 공간 정보의 중복을 초래하고, 시간적 미세 변화를 놓치며, 토큰 수가 T × S (프레임 수 × 프레임당 토큰 수)로 급증해 LLM의 2차원 어텐션 비용을 크게 증가시킨다. VTok은 이러한 문제를 “공간‑시간 분리”라는 간단하면서도 강력한 아이디어로 해결한다.

첫 번째 프레임을 키프레임으로 지정하고, 이를 전통적인 이미지 토크나이저(E_key)로 인코딩해 S 개의 공간 토큰 V^(s) 을 얻는다. 이후 각 프레임 x_t (t>1)은 공유된 피처 추출기 F 를 통해 키프레임과의 차이 ΔF = F(x_t) – F(x_1) 을 계산하고, 이를 모션 인코더 g_ϕ 에 입력해 단일 residual 토큰 v_t^(m) 을 만든다. 이렇게 하면 전체 비디오 토큰 시퀀스는 V = {V^(s), v_2^(m), …, v_T^(m)} 이며, 토큰 수는 S + (T‑1) 으로 선형적으로 증가한다.

VTok은 두 개의 브랜치를 공유하는 통합 MLLM에 연결된다. 이해 브랜치에서는 비디오 토큰과 텍스트 프롬프트를 결합해 언어 모델링 손실을 최소화하고, 생성 브랜치에서는 텍스트 프롬프트만을 입력으로 받아 비디오 토큰을 자동 회귀적으로 샘플링한다. 샘플링된 토큰은 사전 학습된 디퓨전 트랜스포머(D_vid)로 디코딩돼 실제 비디오 프레임으로 복원된다. 손실 함수는 텍스트‑비디오 정합을 위한 언어 모델링 손실 L_under, 비디오 토큰 LM 손실 L_visLM, 그리고 디퓨전 디코더의 재구성 손실 L_dec 을 가중치 λ 로 결합한다.

실험에서는 TV‑Align, VBench, Video‑MMMU 등 다양한 이해·생성 벤치마크에서 VTok 기반 모델이 기존 프레임‑샘플링 토크나이저 대비 3.4%~4.3% 정도의 정확도·점수 상승을 기록한다. 특히 텍스트‑비디오 생성에서 동작 일관성, 객체 정체성 유지, 텍스트 지시사항(객체 수, 이동 방향, 상대 크기 등) 준수가 눈에 띄게 개선되었다. Ablation 연구에서는 키프레임 선택 방식, residual 토큰 차원, 모션 인코더 구조가 성능에 미치는 영향을 분석했으며, 키프레임을 첫 프레임으로 고정했을 때 가장 안정적인 결과를 얻었다.

VTok의 장점은 (1) 토큰 효율성: O(T+S) 구조로 메모리·연산 비용을 크게 절감, (2) 시간 정보 보존: residual 토큰이 키프레임 대비 미세한 움직임을 직접 인코딩, (3) 통합 프레임워크: 동일 토크나이저를 이해와 생성 양쪽에 재사용해 모델 설계·학습 파이프라인을 단순화. 한계점으로는 급격한 카메라 움직임이나 장면 전환이 많은 영상에서 residual 토큰만으로 충분히 표현하기 어려울 수 있다는 점이며, 향후 멀티키프레임 전략이나 계층적 residual 설계가 필요하다.

VTok: 공간‑시간을 분리한 통합 비디오 토크나이저

초록

상세 분석

댓글 및 학술 토론

의견 남기기