오토엠브이: 노래 한 곡으로 완성하는 AI 뮤직비디오 생성 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AutoMV는 음악 파일을 입력받아 전체 길이의 뮤직비디오를 자동으로 생성하는 다중 AI 에이전트 시스템입니다. 음악 구조, 비트, 시간에 맞춘 가사 등 음악 정보를 추출해 스크립트를 작성하고, 캐릭터를 설계하며, 다양한 비디오 생성기를 활용해 장면을 만들고 검증하는 협업 과정을 통해 기존 방법의 한계인 짧은 클립, 불일치, 음악과의 부적합 문제를 해결합니다.

상세 분석

AutoMV의 기술적 핵심은 음악 정보 추출, 다중 에이전트 협업, 그리고 새로운 평가 체계에 있습니다. 먼저 시스템은 Qwen2.5-Omni, SongFormer, htdemucs, Whisper 등 전문 음악 정보 검색(MIR) 도구를 활용해 음악의 장르, 분위기, 구조(인트로, 벌스, 코러스), 보컬 트랙, 정확한 시간 정보가 포함된 가사를 추출합니다. 이렇게 추출된 다중 맥락 정보는 이후 모든 에이전트의 작업 기반이 됩니다.

두 번째 핵심은 역할 기반 다중 에이전트 협업 파이프라인입니다. ‘시나리오 작가 에이전트’는 추출된 음악 정보를 해석하여 시간에 맞춘 장면별 스크립트와 캐릭터 프로필을 생성합니다. 생성된 캐릭터는 외부 공유 은행에 저장되어 모든 장면에서 일관된 정체성을 유지하도록 합니다. ‘감독 에이전트’는 이 스크립트를 바탕으로 각 샷에 대한 카메라 지시사항과 이미지 생성용 프롬프트를 작성합니다. 이후 ‘렌더러’는 장면의 유형(이야기 장면 vs 가수 장면)에 따라 텍스트/이미지-투-비디오 생성기나 립싱크 전용 API를 선택적으로 호출합니다. 마지막으로 ‘검증 에이전트’(Gemini 기반)가 생성된 클립의 스크립트 준수도, 물리적 타당성, 음악-영상 정렬을 평가하여 품질이 낮은 클립은 재생성하도록 하는 피드백 루프를 구성합니다. 이 구조는 단순한 end-to-end 생성이 아닌, 계획-생성-검증의 반복적 협업을 통해 장편 영상의 일관성과 정렬을 보장합니다.

세 번째 주요 기여는 전문가 평가를 기반으로 한 새로운 M2V 생성 벤치마크 제안입니다. 기존 비디오 생성 평가 메트릭은 음악-영상 정렬을 평가하기 어려웠습니다. 이 논문은 ‘음악 콘텐츠 정렬’, ‘기술적 품질’, ‘후반 작업’, ‘예술성’이라는 4개 상위 범주와 이를 세분화한 12개 기준(예: 비트 정렬, 가사 정렬, 시각적 효과, 스토리 일관성 등)을 제시합니다. 이를 통해 상용 제품, AutoMV, 인간 제작 뮤직비디오를 전문가 평가자들이 비교 평가한 결과, AutoMV가 모든 범주에서 기존 기준선을 크게 앞섰으며, 전문가 제작 MV와의 격차도 좁혔습니다. 또한 대규모 멀티모달 모델을 자동 평가자로 활용하는 가능성을 탐구했으나, 아직 인간 전문가 수준에는 미치지 못함을 확인하여 향후 연구 방향을 제시했습니다.

오토엠브이: 노래 한 곡으로 완성하는 AI 뮤직비디오 생성 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기