멀티에이전트 기반 장거리 스토리텔링 프레임워크 MUSE

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MUSE는 짧은 텍스트 프롬프트에서 시작해 장시간의 오디오‑비주얼 스토리를 생성하기 위해, “계획‑실행‑검증‑수정”의 폐쇄‑루프를 갖는 다중 에이전트 시스템을 제안한다. 내러티브 의도를 정형화된 제어 신호(인물 정체성, 공간 구도, 시간 연속성)로 변환하고, 각 샷마다 멀티모달 검증 모듈이 위반을 감지해 목표 지향적인 수정을 수행한다. 또한, 참조‑프리 평가 프로토콜 MUSEBench을 도입해 인간 판단과의 상관관계를 검증한다. 실험 결과, 기존 피드‑포워드 및 프롬프트‑리트라이 방식 대비 내러티브 일관성, 인물·음성 정체성 유지, 영화적 품질이 크게 향상됨을 보인다.

상세 분석

본 논문은 장거리 오디오‑비주얼 스토리텔링에서 흔히 발생하는 “의도‑실행 격차”를 구조적 제약 강제화 문제로 재정의한다. 기존 텍스트‑투‑비디오 모델들은 단일 패스(feed‑forward) 방식으로, 고수준 스크립트를 일련의 샷 설명으로 변환한 뒤 각각 독립적으로 시각·음성 생성기를 호출한다. 이 과정에서 작은 로컬 오류가 누적돼 인물 정체성 드리프트, 공간·카메라 일관성 붕괴, 시간적 단절 등 장기적 일관성 문제가 발생한다. MUSE는 이러한 문제를 해결하기 위해 (1) 내러티브 의도를 “정체성 앵커”, “레이아웃 제어”, “시간 구간” 등 기계가 직접 실행 가능한 제어 토큰으로 명시화하고, (2) 다중 에이전트(스크립트 플래너, 레이아웃 플래너, 비주얼/오디오 생성기, 검증·수정 모듈) 사이에 전역 메모리 H를 공유함으로써 상태를 지속적으로 업데이트한다. 핵심은 폐쇄‑루프 “plan‑execute‑verify‑revise” 사이클이다. 각 샷 i에 대해, 플래너 Φ_k는 현재 스크립트 s_i와 메모리 H(t)를 입력으로 제어 번들 Θ_i,k를 생성한다. 생성기 Agent_k는 Θ_i,k를 받아 비주얼·오디오 x_i,k를 출력하고, 검증기 Ψ_k는 x_i,k와 의도 s_i, 메모리 H(t)를 비교해 위반 신호 e_i,k(예: identity_mismatch, layout_violation, temporal_leak)를 반환한다. 마지막으로 수정 모듈 Ω_k는 위반 유형에 따라 국소적인 재생성 또는 파라미터 조정을 수행하고, 메모리 H를 갱신한다. 이 구조는 자연어 프롬프트 재시도와 달리, 위반을 정형화된 타입으로 표현해 목표 지향적인 수정을 가능하게 한다.

또한, MUSE는 사전 제작 단계에서 “Vocal Trait Synthesis(VTS)”를 도입해 텍스트 기반 음성 특성(연령, 성별, 음색, 말투)으로 음성 앵커 z_c^voc를 생성한다. 이는 기존의 참조 음성 클론 방식과 달리, 사용자에게 음성 샘플을 제공받지 않아도 일관된 캐릭터 음성을 유지할 수 있게 한다. 시각적 정체성은 “character asset generation” 파이프라인을 통해 텍스트 설명을 기반으로 3D/2D 아바타를 만들고, 이를 레이아웃‑가이드된 이미지 생성기에 하드 프라이어로 주입한다. 이렇게 고정된 멀티모달 정체성은 이후 모든 샷에서 재사용돼 초기 단계에서 발생할 수 있는 정체성 오류를 근본적으로 차단한다.

공간·구도 제어는 “layout‑aware generation” 모듈에서 수행된다. 스크립트에 명시된 카메라 움직임·인물 위치 정보를 바탕으로 coarse layout L_i를 생성하고, 이를 diffusion 기반 이미지 생성기에 조건으로 제공한다. 레이아웃 검증은 “composition_integrity” 피드백을 통해 객체 수, 중복, 시맨틱 일관성을 체크하고, 위반 시 레이아웃 재생성 혹은 직접 복사‑붙여넣기 방식으로 보정한다. 시간 연속성은 샷 경계에서 “first‑last frame check”, “boundary check” 등을 수행해 프레임 간 시각·음성 흐름이 매끄러운지 판단한다.

평가 측면에서, 저자는 참조‑프리 평가 프로토콜 MUSEBench을 설계했다. 대규모 멀티모달 모델(예: CLIP, Whisper) 기반의 자동 점수를 내러티브 일관성, 인물 정체성, 시네마틱 품질 등 다차원으로 측정하고, 이를 인간 평가와 상관관계 분석해 신뢰성을 검증한다. 실험 결과, MUSE는 기존 Feed‑Forward, StoryAgent, MovieAgent 등과 비교해 인간 평가 평균 점수에서 12‑18% 상승했으며, 특히 인물·음성 정체성 유지에서 현저히 높은 점수를 기록했다.

핵심 기여는 (1) 장거리 스토리텔링을 “제약 강제화” 문제로 재정의, (2) 정형화된 제어와 폐쇄‑루프 다중 에이전트 구조를 도입해 목표 지향적인 수정 메커니즘 구현, (3) 참조‑프리 평가 프레임워크 MUSEBench을 제시해 오픈‑도메인 스토리텔링 성능을 객관적으로 측정한 점이다. 이 접근은 향후 멀티모달 창작 시스템이 고수준 의도를 유지하면서도 다양성을 보존하는 방향으로 확장될 가능성을 열어준다.

멀티에이전트 기반 장거리 스토리텔링 프레임워크 MUSE

초록

상세 분석

댓글 및 학술 토론

의견 남기기