멀티스피커 대화 중심 오디오비디오 생성 평가 벤치마크 MTAVG 벤치마크
초록
MTAVG‑Bench는 다중 화자 대화 영상을 생성하는 텍스트‑투‑오디오‑비디오 모델을 평가하기 위해 설계된 종합 벤치마크이다. 1.8천 개의 합성 영상을 12개 모델로 생성하고, 2.4천 개의 인간 주석 QA 쌍을 확보하였다. 평가 항목은 신호 충실도, 속성 일관성, 사회적 상호작용, 영화적 표현 네 단계로 구성되며, 각 단계는 세부 차원으로 세분화된다. 실험 결과 Gemini 3 Pro가 전반적으로 가장 높은 점수를 얻었으며, 오픈소스 모델은 신호 충실도와 일관성에서 경쟁력을 보였다.
상세 분석
MTAVG‑Bench는 기존의 오디오‑비디오 평가 벤치마크가 인간 촬영 영상이나 단일 화자에 초점을 맞춘 점을 보완한다는 점에서 큰 의의를 가진다. 논문은 먼저 멀티스피커 대화 상황을 재현하기 위한 구조화된 프롬프트 설계 과정을 상세히 기술한다. 프롬프트는 대화 내용, 장면 배경, 화자 외형·음성 특성 등을 명시적으로 포함하여, 모델이 텍스트‑투‑오디오‑비디오 변환 과정에서 필요한 모든 메타 정보를 제공한다. 이렇게 생성된 1.8천 개 영상은 자동 에이전트와 인간 검증을 결합한 이중 필터링을 거쳐, 최소 하나 이상의 오류를 포함하는 샘플만을 남긴다. 오류 유형은 ‘시그널 파괴’, ‘속성 불일치’, ‘사회적 상호작용 오류’, ‘시네마틱 부조화’ 등으로 구분되며, 각각은 논문이 제시한 9개의 세부 차원에 매핑된다.
평가 프레임워크는 4단계(신호 충실도, 속성 일관성, 사회적 상호작용, 영화적 표현)로 계층화되어 있다. 첫 번째 단계는 영상 품질(VQ)과 음성 품질(SQ)이라는 두 축으로 구성되며, 블러, 플리커, 음성 끊김 등 저수준 왜곡을 검출한다. 두 번째 단계에서는 장면 일관성(SC), 화자 일관성(CC), 입술‑음성 동기화(LS)라는 세 차원을 통해 시공간적 일관성을 평가한다. 여기서 특히 화자 일관성은 외형, 목소리, 존재 지속성을 동시에 검증함으로써 기존의 ‘입술 동기화’ 평가를 넘어선다. 세 번째 단계는 화자‑발화 정렬(SA)과 턴‑테이킹 논리(TT)를 다루며, 대화 흐름의 논리적 연결성을 판단한다. 마지막 단계는 감정·표현 정렬(EA)과 화자 중심 카메라 정렬(CA)로 구성되어, 영화적 연출과 감정 전달까지 포괄한다.
각 차원별로 다중 선택형 질문과 쌍별 선호 판단을 포함한 QA 쌍을 설계함으로써, 단순 점수화가 아닌 정성적 오류 진단이 가능하도록 했다. 이 방식은 모델 간 비교 시 ‘어디에서’ 실패했는지를 명확히 드러내며, 향후 모델 개선 방향을 제시한다.
벤치마크에 적용된 12개 모델은 상용 모델(Gemini 3 Pro, VEO 3, Sora 2 등)과 오픈소스 모델(Stable‑Video‑Diffusion, Open‑Sora 등)으로 구성된다. 실험 결과, Gemini 3 Pro가 전반적인 평균 점수에서 가장 우수했지만, 특히 신호 충실도와 속성 일관성에서는 오픈소스 모델도 경쟁력 있는 성능을 보였다. 반면, 사회적 상호작용과 영화적 표현 단계에서는 모든 모델이 여전히 낮은 점수를 기록했으며, 이는 현재 모델이 대화 구조와 연출적 요소를 충분히 이해하지 못한다는 점을 시사한다.
이 논문은 멀티스피커 대화 영상 생성이라는 복합 과제를 체계적으로 평가할 수 있는 기준을 제공함으로써, 향후 연구가 ‘시각‑청각 일관성’뿐 아니라 ‘대화 논리와 연출’까지 포괄하도록 유도한다. 또한, 오류 유형을 정량화하고 인간 주석을 통한 QA 데이터베이스를 공개함으로써, 모델 디버깅 및 데이터‑주도 학습에 활용 가능한 귀중한 리소스를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기