협업형 스토리보드와 일관성 에이전트를 통한 장편 비디오 생성

CoAgent는 사용자 프롬프트, 스타일 레퍼런스, 템포 제약을 입력받아 스토리보드 플래너가 샷 단위 계획을 생성하고, 글로벌 컨텍스트 매니저가 엔티티 메모리를 유지한다. 각 샷은 합성 모듈과 비주얼 일관성 컨트롤러의 협업으로 생성되며, 검증 에이전트가 비전‑언어 추론으로 중간 결과를 검사해 불일치 시 선택적 재생성을 트리거한다. 마지막으로 페이싱 편집기가

협업형 스토리보드와 일관성 에이전트를 통한 장편 비디오 생성

초록

CoAgent는 사용자 프롬프트, 스타일 레퍼런스, 템포 제약을 입력받아 스토리보드 플래너가 샷 단위 계획을 생성하고, 글로벌 컨텍스트 매니저가 엔티티 메모리를 유지한다. 각 샷은 합성 모듈과 비주얼 일관성 컨트롤러의 협업으로 생성되며, 검증 에이전트가 비전‑언어 추론으로 중간 결과를 검사해 불일치 시 선택적 재생성을 트리거한다. 마지막으로 페이싱 편집기가 서사 흐름과 전환을 다듬어 장시간 비디오의 내러티브 일관성과 시각적 일관성을 크게 향상시킨다.

상세 요약

CoAgent는 기존 텍스트‑투‑비디오 모델이 샷을 독립적으로 처리하면서 발생하는 ‘아이덴티티 드리프트’와 ‘장면 불일치’를 근본적으로 해결하기 위해 설계된 폐쇄‑루프 시스템이다. 핵심 구성요소는 네 단계 파이프라인으로, 첫 번째 단계인 Storyboard Planner는 입력 프롬프트와 스타일 레퍼런스를 기반으로 ‘엔티티’, ‘공간 관계’, ‘시간적 단서’를 명시한 구조화된 샷 플랜을 자동 생성한다. 여기서 사용된 트리 구조의 플래닝 모델은 대규모 언어 모델에 샷‑레벨 제약을 추가 학습시켜, 인간 감독이 설계한 스토리보드와 유사한 수준의 서사 구조를 자동으로 도출한다.

두 번째 단계인 Global Context Manager는 엔티티‑레벨 메모리 뱅크를 유지한다. 각 엔티티는 고유한 시각적 토큰(예: 얼굴, 의상, 물체)과 메타데이터를 저장하며, 이후 샷 생성 시 일관성 컨트롤러가 이 메모리를 조회해 동일 인물·물체가 동일한 외관을 유지하도록 지도한다. 이는 기존 프레임‑단위 재현 방식과 달리 장기적인 정체성 보존을 가능하게 한다.

세 번째 단계에서는 Synthesis Module이 텍스트‑투‑비디오 디퓨전 모델을 기반으로 실제 비주얼을 생성한다. 여기서 Visual Consistency Controller는 Global Context Manager에서 제공된 엔티티 토큰을 조건으로 삽입하고, 스타일 일관성을 위한 어텐션 매핑을 조정한다. 동시에, Verifier Agent는 CLIP‑ 기반 비전‑언어 모델과 시계열 논리 추론기를 활용해 생성된 샷을 평가한다. 불일치(예: 인물 외모 변화, 배경 전환 오류)가 감지되면, Verifier는 해당 샷에 대한 재생성 요청을 트리거하고, 필요 시 플래너에게 피드백을 반환해 플랜을 수정한다.

마지막 단계인 pacing‑aware editor는 각 샷의 길이와 전환 효과를 조정해 전체 비디오의 리듬을 최적화한다. 이는 텍스트에 명시된 ‘느린 전개’·‘빠른 액션’ 같은 템포 제약을 정량화하여, 프레임 레이트와 전환 지속시간을 동적으로 할당한다. 실험 결과, CoAgent는 기존 베이스라인 대비 서사 일관성 점수 23%↑, 시각적 일관성 지표 31%↑, 그리고 인간 평가에서 ‘내러티브 흐름’ 항목에서 유의미한 우위를 보였다. 특히 30초 이상 장면에서 인물 정체성 유지와 장면 전환 부드러움이 크게 개선되었으며, 선택적 재생성 메커니즘이 전체 연산 비용을 15% 이하로 억제하면서도 품질을 향상시켰다.

이러한 설계는 비디오 생성 분야에서 플래닝‑생성‑검증의 삼각 구조를 최초로 구현했으며, 향후 멀티모달 스토리텔링, 인터랙티브 콘텐츠 제작 등에 확장 가능성을 제시한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...