비디오 생성 모델의 암묵적 세계 규칙 이해 평가
초록
RISE‑Video는 텍스트‑이미지‑투‑비디오(TI2V) 모델의 숨은 세계 규칙 추론 능력을 측정하기 위해 467개의 인간 주석 샘플과 8가지 추론 카테고리를 제공하는 벤치마크이다. 네 가지 평가 지표(Reasoning Alignment, Temporal Consistency, Physical Rationality, Visual Quality)와 LLM 기반 자동 채점 파이프라인을 도입해 인간 평가와 높은 일치를 보이며, 11개 최신 모델을 실험한 결과 현재 모델들은 복합적인 암묵 규칙을 구현하는 데 한계가 있음을 밝힌다.
상세 분석
본 논문은 기존 비디오 생성 평가가 주로 시각적 사실성·프레임 간 일관성에 머물렀던 점을 비판하고, “암묵적 세계 규칙”이라는 고차원 추론 능력을 정량화하려는 시도를 제시한다. 데이터 구성 단계에서 저자들은 ‘공통 상식’, ‘전문 분야 지식’, ‘지각적 속성’, ‘사회·문화적 맥락’, ‘논리·퍼즐’, ‘경험 기반’, ‘공간·시점’, ‘시간’ 등 8개의 추론 차원을 정의하고, 각 차원을 세부 서브카테고리까지 세분화하였다. 이는 비디오 생성 모델이 텍스트 명령을 넘어 “왜”·“어떻게”라는 인과·절차적 관계를 이해해야 함을 강조한다.
평가 메트릭은 네 축으로 설계되었다. Reasoning Alignment는 LMM(Large Multimodal Model)이 사전 설계된 이진 질문에 대해 ‘예/아니오’로 답하도록 하여 추론 정확도를 0‑1 점수로 환산한다. 여기서 질문 설계는 각 추론 유형에 맞춰 지식‑의식적 질문을 만든다는 점이 핵심이다. Temporal Consistency는 시계열 샘플링 전략을 달리 적용해(2 fps vs. 저밀도) 시간 흐름의 일관성을 평가한다. Physical Rationality는 물리·생물·화학 등 실제 세계 법칙 위반 여부를 1‑5 점수로 매긴다. 마지막 Visual Quality는 기존 영상 품질 지표와 유사하게 1‑3 점으로 시각적 충실도를 측정한다.
자동 채점 파이프라인은 특히 논리·퍼즐(미로 탐색, 대칭 생성)과 같이 언어로 표현하기 어려운 과제에 대해 색상 매칭·좌표 비교 등 비언어적 검증 방식을 도입해 LMM의 한계를 보완한다. 실험 결과, 11개 최신 TI2V 모델(예: CogVideoX, Sora, HunyuanVideo 등)은 전반적으로 Reasoning Alignment 점수가 낮으며, 특히 ‘경험 기반’·‘사회·문화’·‘논리·퍼즐’ 카테고리에서 현저한 성능 저하를 보였다. 반면 Visual Quality는 비교적 높은 편이었으며, 이는 모델이 시각적 사실성은 확보했지만 내재된 규칙 추론에는 미흡함을 시사한다.
또한 인간 평가와 LMM 기반 자동 평가 간의 상관관계를 분석한 결과, 평균적으로 0.78 이상의 코헨스-알파를 기록해 자동 평가가 신뢰할 수 있음을 입증한다. 이는 대규모 인간 라벨링 비용을 크게 절감하면서도 의미 있는 추론 평가를 가능하게 한다는 실용적 의의를 가진다.
전체적으로 RISE‑Video는 비디오 생성 모델의 “이해·추론” 능력을 체계적으로 측정할 수 있는 최초의 종합 벤치마크이며, 향후 모델 설계·학습에 있어 규칙 기반 손실 함수 도입이나 멀티모달 상식 지식 통합이 필요함을 암시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기