공간 정렬 오디오‑비디오 생성 벤치마크 SAVGBench
초록
SAVGBench는 화면 안·밖의 사운드 이벤트를 기준으로 구성한 스테레오 오디오·퍼스펙티브 비디오 데이터셋과, 객체 검출·음향 이벤트 위치 추정 기반의 새로운 공간 정렬 평가 지표를 제시한다. 이를 활용해 공동 학습 기반 디퓨전 모델과 영상‑오디오 2단계 파이프라인을 벤치마크하고, 영상·오디오 품질과 공간 정렬 모두에서 현 모델이 아직 한계에 있음을 실증한다.
상세 분석
본 논문은 멀티모달 생성 연구에서 “오디오와 비디오가 공간적으로 일치하는가”라는 질문을 정량화하려는 최초 시도 중 하나이다. 기존 영상 생성 모델은 프레임 간 시각적 일관성이나 텍스처 품질에 집중했으며, 오디오‑비디오 동기화는 주로 시간적 정렬에 국한되었다. SAVGBench는 이러한 빈틈을 메우기 위해 두 가지 핵심 요소를 설계했다. 첫째, 360° 영상·FOA(First‑Order Ambisonics) 오디오를 기반으로, 고정 시점(viewing angle)과 스테레오 변환 과정을 거쳐 256×256 해상도의 퍼스펙티브 영상과 16 kHz 스테레오 오디오를 만든다. 여기서 중요한 점은 “온스크린 사운드”만을 남겨 데이터셋을 구성함으로써, 시각적 객체와 음향 소스가 물리적으로 동일한 화면 영역에 존재하도록 강제했다는 것이다. 이는 후속 평가에서 공간 정렬을 명확히 측정할 수 있게 한다.
둘째, 새로운 정량적 지표인 Spatial AV‑Align을 도입했다. 이 지표는 (1) YOLO‑X 기반 객체 검출기로 영상에서 사람·악기 등 사운드 발생 가능 객체의 2D 좌표를 추출하고, (2) 스테레오 SELD(음향 이벤트 위치 추정) 모델로 오디오에서 각 클래스별 활동과 수평 위치를 추정한다. 두 모달리티의 좌표를 프레임 레벨에서 매칭해 True Positive와 False Negative를 계산하고, TP/(TP+FN) 형태의 Recall 값을 0~1 사이의 정렬 점수로 산출한다. 중요한 점은 이 지표가 “ground‑truth 오디오”를 필요로 하지 않으며, 생성된 오디오와 비디오 모두에 적용 가능하다는 점이다.
벤치마크에서는 두 가지 베이스라인을 비교한다. 첫 번째는 MM‑Diffusion을 스테레오 버전으로 확장한 Joint Method로, 오디오와 비디오를 하나의 디퓨전 네트워크에서 공동 학습한다. 여기서는 저해상도(64×64) 영상 생성 후 초해상도 모델을 통해 256×256으로 업스케일한다. 두 번째는 Two‑Stage Method로, 영상 디퓨전 모델을 먼저 학습하고, 별도의 Stereo‑MMAudio 모델이 영상을 조건으로 스테레오 오디오를 생성한다. 두 접근 모두 무조건(unconditional) 설정에서 평가되었으며, DPM Solver와 DDPM을 혼합해 샘플링 효율을 높였다.
실험 결과는 세 가지 측면에서 차이를 보인다. 영상 품질(FVD, KVD)과 오디오 품질(FAD) 모두에서 Joint Method이 약간 우세했지만, 두 모델 모두 인간 평가와 비교했을 때 여전히 낮은 Spatial AV‑Align 점수를 기록했다. 이는 현재 디퓨전 기반 멀티모달 모델이 “어디서 소리가 나는가”라는 공간 정보를 충분히 학습하지 못한다는 증거다. 또한, 오디오‑비디오 간 해상도 차이(64×64 vs 256×256)와 객체 검출 한계가 정렬 성능을 저해하는 요인으로 지적된다.
논문의 의의는 데이터·평가 인프라를 공개함으로써 향후 연구자들이 공간 정렬을 명시적 목표로 삼는 모델을 개발하도록 촉진한다는 점이다. 특히, SELD와 객체 검출을 결합한 정렬 지표는 멀티모달 생성뿐 아니라 오디오‑비주얼 인식, AR/VR 콘텐츠 제작 등 다양한 응용 분야에 활용 가능하다. 향후 연구는 (1) 고해상도에서 직접 객체를 인식할 수 있는 영상 생성, (2) 수평·수직 3D 위치 정보를 모두 포함하는 오디오 표현(예: Ambisonics)으로 확장, (3) 정렬 손실을 학습 목표에 직접 포함시키는 방법을 탐색해야 할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기