비디오오쓰: 장시간 동영상 다중홉 추론을 위한 원시 도구 연동 탐색 모델
초록
Video‑o3는 장시간 동영상에서 핵심 장면을 순차적으로 찾아내고, 필요 시 세밀히 검토하며, 충분한 증거가 확보되면 자동으로 추론을 종료하는 원시(interleaved) 도구 호출 프레임워크이다. 핵심 기술로는 이질적인 추론·도구 호출 단계 간의 주의 분산을 막는 Task‑Decoupled Attention Masking과, 다중 턴 대화에서 컨텍스트 길이 폭증을 제어하는 Verifiable Trajectory‑Guided Reward가 있다. 대규모 합성 데이터셋 Seeker‑173K(173 K 트래젝터리)로 지도학습·강화학습을 수행했으며, MLVU(72.1 %)·Video‑Holmes(46.5 %) 등에서 기존 최첨단 모델을 크게 앞섰다.
상세 분석
Video‑o3는 기존 멀티모달 LLM이 장시간 동영상을 다룰 때 겪는 “전체를 균일하게 샘플링하고 한 번에 답을 도출한다”는 한계를 근본적으로 재구성한다. 모델은 처음에 전체 영상의 저해상도 토큰을 전역 컨텍스트로 받아들이고, 사용자의 질의와 현재 관찰을 바탕으로 “이 단계에서는 어떤 구간을 더 자세히 살펴볼 것인가”를 판단한다. 판단 결과에 따라 VideoCrop 도구를 호출해 지정된 시간 구간을 고해상도 프레임 토큰으로 재생성하고, 이 토큰을 현재 대화에 삽입한다. 이렇게 반복되는 탐색‑추론 사이클은 두 가지 핵심 메커니즘으로 안정화된다.
첫 번째는 Task‑Decoupled Attention Masking(TDAM)이다. 기존의 공유‑컨텍스트 구조에서는 전역 영상 토큰, 도구‑출력 토큰, 중간 사고 텍스트가 모두 동일한 어텐션 맵에 노출돼, 예를 들어 “클루 탐색” 단계에서 이미 확보한 고해상도 클립이 불필요하게 어텐션을 차지한다. TDAM은 훈련 시점에 단계별 가시성을 강제한다. 클루 탐색 단계에서는 전역 영상 토큰만을 볼 수 있게 하고, 답변 단계에서는 전역 토큰을 마스크해 고해상도 클립에만 집중하도록 한다. 이렇게 하면 모델이 각 단계에서 필요한 정보에만 어텐션을 집중해, “가짜 사고(fake thinking)” 현상을 크게 감소시킨다.
두 번째는 Verifiable Trajectory‑Guided Reward이다. 다중 턴 인터랙션에서는 매 턴마다 토큰 비용이 누적돼 컨텍스트 폭발이 일어나기 쉽다. 저자는 보상 함수를 “정답 보상 × (1 + α·탐색 효율)” 형태로 설계해, 동일한 정답을 얻었더라도 더 적은 탐색 단계·짧은 클립을 사용한 경우에 추가 보상을 부여한다. 이 보상은 강화학습(RL) 단계에서 정책이 탐색 경로를 최적화하도록 유도하며, 불필요한 도구 호출을 억제하고 조기 종료 판단을 학습한다.
데이터 측면에서 저자는 자동 합성 파이프라인을 구축해, 다양한 질의·영상·클루·정답 구조를 가진 173 K 트래젝터리를 생성한다. 각 트래젝터리는 (질의, 전역 영상 메타, 단계별 도구 호출 명령, 클립 토큰, 중간 사고, 최종 답변)으로 구성돼, 지도학습(Supervised Fine‑Tuning)과 RL 두 단계 모두에 충분한 신호를 제공한다.
실험 결과는 세 가지 벤치마크에서 기존 최첨단 모델을 크게 앞선다. MLVU에서는 72.1 %의 정확도로 이전 최고 66 % 수준을 넘어섰으며, Video‑Holmes에서는 46.5 %로 복합 추론 능력을 입증했다. Ablation 연구를 통해 TDAM이 없을 경우 어텐션 분산으로 정확도가 4~5 % 감소하고, 보상 설계가 없을 경우 평균 탐색 턴이 2.3 → 3.8로 늘어나는 등 각 구성 요소의 기여도를 정량화했다.
한계점으로는 (1) 현재 VideoCrop 도구가 고정된 프레임 레이트와 해상도로만 지원돼, 초고해상도·고프레임 영상에 대한 비용이 높다, (2) 합성 데이터가 실제 현장 영상의 복잡성을 완전히 대변하지 못해 도메인 전이 시 성능 저하 가능성이 있다, (3) 탐색 종료 판단이 보상 설계에 크게 의존하므로 보상 파라미터 튜닝이 민감하다. 향후 연구에서는 동적 해상도 조정, 실제 촬영 데이터 기반 트래젝터리 확장, 그리고 메타‑리워드 학습을 통한 보다 안정적인 종료 정책을 제안한다.
전반적으로 Video‑o3는 “탐색‑추론을 하나의 연속된 대화 흐름 안에서 수행한다”는 새로운 패러다임을 제시하며, 장시간 동영상 이해에 필요한 효율성과 정확성을 동시에 달성한 최초의 원시 도구 연동 모델이라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기