비디오버스 텍스트투비디오 모델 세계모델 능력 평가
초록
본 논문은 최신 텍스트‑투‑비디오(T2V) 생성 모델이 실제 세계의 물리·문화·상식 등을 이해하고, 사건 간 인과관계를 반영한 영상을 생성할 수 있는지를 평가하기 위한 새로운 벤치마크 “VideoVerse”를 제안한다. 300개의 프롬프트와 815개의 사건, 793개의 이진 평가 질문을 통해 동적·정적 10가지 평가 차원을 설계하고, 인간 선호에 맞춘 QA 기반 파이프라인으로 주요 오픈·클로즈드 소스 T2V 모델을 종합적으로 측정한다. 실험 결과 현재 모델들은 전통적인 화질·일관성 지표에서는 높은 점수를 받지만, 세계 모델 역량(인과관계, 물리 법칙, 상식 등)에서는 여전히 큰 격차가 있음을 보여준다.
상세 분석
VideoVerse는 기존 T2V 벤치마크가 갖는 한계를 체계적으로 보완한다는 점에서 학술적·실용적 의미가 크다. 첫째, 기존 평가는 “완전 명시된 프롬프트”에 의존해 영상이 텍스트와 일치하는지 여부만을 검사했지만, VideoVerse는 “숨겨진 의미(hidden semantics)”를 도입해 모델이 암시된 물리·인과 관계를 스스로 추론하도록 요구한다. 예를 들어 “고무오리 한 마리가 바닥에 던져진다”라는 간단한 프롬프트만 제공하고, 모델이 오리의 튀는 움직임을 생성해야 하는데, 이는 중력·탄성·운동 에너지 보존 등 기본 물리 법칙을 이해해야 가능한 과제이다.
둘째, 평가 차원을 동적과 정적으로 구분하고, 각각 5개의 세부 항목을 설계함으로써 세계 모델의 다면적 능력을 정량화한다. 동적 차원에는 사건 연속성(Event Following), 역학(Mechanics), 상호작용(Interaction), 물질 특성(Material Properties), 카메라 제어(Camera Control)가 포함된다. 정적 차원에는 자연 제약(Natural Constraints), 상식(Common Sense), 속성 정확성(Attribution Correctness), 2D 레이아웃, 3D 깊이 등이 있다. 특히 역학·상호작용·물질 특성은 각각 3~4개의 하위 이진 질문으로 세분화돼, 모델이 물리적 현상을 얼마나 정밀하게 재현하는지 미세하게 측정한다.
셋째, 평가 파이프라인은 최신 비전‑언어 모델(VLM)을 활용해 인간 선호와 일치하도록 설계된 QA 시스템을 구축한다. 프롬프트‑영상 쌍에 대해 VLM이 제시한 이진 질문에 대한 정답률을 점수화함으로써, 인간 평가자의 주관성을 최소화하고 대규모 자동 평가를 가능하게 한다. 이 과정에서 “생성 성공/실패”를 명확히 구분하고, 오류 유형을 분석해 모델의 약점을 구체적으로 파악한다.
넷째, 실험에서는 대표적인 오픈소스 모델(CogVideoX, HunyuanVideo 등)과 클로즈드소스 모델(Veo3 등)을 평가했으며, 전통적인 FVD·IS·FID와 같은 화질 지표에서는 거의 동일한 수준을 보였지만, 세계 모델 차원에서는 평균 30%~50% 수준의 점수 차이가 나타났다. 특히 Event Following과 Mechanics에서 가장 큰 격차가 발견됐으며, 이는 현재 모델이 텍스트에 명시된 사건 순서를 따르는 데는 능숙하지만, 물리적 인과관계를 내재화하는 데는 한계가 있음을 시사한다.
마지막으로, 논문은 VideoVerse가 향후 T2V 연구에서 “세계 모델”을 목표로 하는 모델 설계·학습·평가에 필수적인 기준이 될 것이라고 주장한다. 기존 벤치마크가 포화 상태에 이른 상황에서, 이 새로운 평가 체계는 모델 개발자에게 구체적인 개선 방향을 제공하고, 궁극적으로 인간과 AI 간의 보다 자연스러운 멀티모달 상호작용을 가능하게 할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기