텍스트‑투‑비디오와 세계 모델링: Sora를 중심으로 한 종합 설문
초록
본 설문은 텍스트‑투‑비디오(T2V) 기술이 세계 모델링에 얼마나 부합하는지를 체계적으로 검토한다. 250편 이상의 논문을 PRISMA 방식으로 수집·분류하고, 공간·행동·전략 지능을 구현하기 위한 완전성, 일관성, 창의성 등 핵심 속성을 분석한다. 최신 모델인 Sora를 포함한 주요 T2V 시스템을 비교·평가하며, 다양성‑일관성 트레이드오프와 인간‑인‑루프 제어 등 남은 과제를 제시한다.
상세 분석
이 설문은 세계 모델링을 “인식‑행동 시스템”의 핵심 구성 요소로 정의하고, 이를 텍스트‑투‑비디오 모델이 어떻게 지원할 수 있는지를 네 가지 축으로 나눈다. 첫째, 완전성(Completeness) 은 콘텐츠의 포괄성과 결합성을 의미한다. 논문은 현재 T2V 모델이 고해상도 시각적 디테일을 제공하지만, 장면 간 연속성이나 스토리 구조에서 빈틈이 남는 경우가 많다고 지적한다. 특히, Sora와 같은 대규모 모델은 풍부한 텍스트‑비디오 페어 데이터를 활용해 시각적 충실도를 크게 높였으나, 복합적인 상호작용 시나리오에서는 여전히 일관성 문제가 발생한다.
둘째, 일관성(Consistency) 은 엔티티 일관성, 구성 일관성, 세계 일관성으로 세분화된다. 엔티티 일관성은 객체의 외형·속성이 시간축을 따라 유지되는지를 평가하고, 구성 일관성은 공간적 관계와 시점 전환이 논리적으로 연결되는지를 본다. 세계 일관성은 물리 법칙과 상식적 타당성을 포함한다. 설문은 현재 대부분의 T2V 모델이 엔티티 일관성은 어느 정도 확보하지만, 물리적 충돌이나 중력 효과 등 물리 일관성에서는 한계가 있음을 확인한다. 이는 모델이 텍스트 조건을 해석할 때 물리 시뮬레이션 모듈을 별도로 결합하지 않기 때문이다.
셋째, 창의성(Invention) 은 기존 데이터에 얽매이지 않고 새로운 장면·동작·시점을 생성하는 능력이다. 설문은 다양성‑일관성 트레이드오프가 핵심 난제라고 강조한다. 다양성을 높이면 종종 물리·상식 위배가 늘어나고, 일관성을 강화하면 생성이 보수적으로 변한다. 이를 해결하기 위해 강화학습 기반의 다양성 촉진 기법, 라티스 공간 탐색, 그리고 메타‑학습을 통한 도메인 적응이 제안된다.
넷째, 인간‑인‑루프 제어(Human‑in‑the‑Loop) 와 전략 지능(Strategic Intelligence) 에서 설문은 인터랙티브 프롬프트, 조건부 제어 신호, 그리고 단계적 검증 메커니즘을 강조한다. 현재 Sora는 기본적인 텍스트 프롬프트 제어만 지원하지만, 향후 키보드·마우스·음성 등 다중 모달 입력을 통합해 장기 계획 및 게임‑레벨 설계와 같은 전략적 작업을 수행할 수 있을 것으로 전망한다.
마지막으로, 데이터와 평가 측면을 살펴보면, 기존 비디오 데이터셋은 도메인 편향과 라벨 부족 문제가 심각하며, 평가 지표도 시각적 품질(PSNR, FVD)과 일관성(Temporal Consistency Score) 위주로 제한적이다. 설문은 멀티모달 인간 평가, 시뮬레이션 기반 물리 검증, 그리고 장기 행동 예측 정확도 등을 포함한 새로운 벤치마크 설계가 필요하다고 제언한다. 전반적으로, 텍스트‑투‑비디오 기술은 세계 모델링의 핵심 요소들을 점진적으로 구현하고 있으나, 완전한 AGI 수준의 세계 모델에 도달하려면 물리 시뮬레이션 통합, 다양성 관리, 그리고 인간 중심 제어 메커니즘이 추가로 연구돼야 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기