픽셀의 소리

PixelPlayer는 라벨이 없는 동영상 데이터를 활용해 시각‑청각 동기화를 자기 지도 신호로 사용한다. 영상의 각 픽셀에 대응하는 소리를 추정하고, 입력된 혼합 음원을 픽셀 단위로 분리·위치화한다. 새로운 MUSIC 데이터셋에서 제안한 Mix‑and‑Separate 학습 방식이 기존 베이스라인을 능가함을 실험적으로 입증한다.

저자: Hang Zhao, Chuang Gan, Andrew Rouditchenko

픽셀의 소리
본 논문은 시각‑청각 동기화를 활용해 라벨이 전혀 없는 동영상으로부터 픽셀 단위 사운드 로컬라이제이션과 소스 분리를 동시에 학습하는 시스템, PixelPlayer를 제안한다. 기존의 소리 분리 연구는 주로 오디오 전용 신호 처리(NMF, 딥러닝 기반 스펙트로그램 마스크) 혹은 제한된 라벨이 있는 데이터에 의존해 왔으며, 시각 정보를 활용한 연구는 소리 위치 추정은 가능하지만 실제 소스 분리까지는 다루지 못했다. PixelPlayer는 이러한 격차를 메우기 위해 “Mix‑and‑Separate”라는 자기 지도 학습 방식을 도입한다. 학습 과정은 다음과 같다. 먼저 대규모 비디오 풀에서 N개의 무작위 비디오(보통 N=2)를 샘플링한다. 각 비디오에 대해 프레임 I_n(x,y,t)와 오디오 S_n(t)를 추출하고, 오디오들을 선형적으로 합산해 혼합 신호 S_mix = Σ_n S_n을 만든다. 이때 비디오와 오디오는 자연스럽게 동기화되어 있기 때문에, 각 비디오의 시각적 특징은 해당 오디오 소스에 대한 유일한 힌트를 제공한다. 모델은 두 개의 서브네트워크—비디오 분석(ResNet‑18 기반 dilated 구조)와 오디오 분석(U‑Net)—를 통해 각각 시각적 픽셀 임베딩 i_k(x,y)와 오디오 채널 특징 s_k(u,v)를 추출한다. 이후 오디오 합성 네트워크는 i_k와 s_k를 가중합해 마스크 M(x,y,u,v)를 예측하고, 이를 입력 스펙트로그램에 곱해 픽셀별 스펙트로그램을 만든다. 역 STFT를 통해 파형을 복원함으로써, 각 픽셀에 대응하는 사운드 파형 Ŝ_out(x,y,t)를 얻는다. 손실 함수는 두 가지 형태가 있다. (1) 이진 마스크를 목표로 하는 경우, 각 T‑F 유닛에서 목표 소스가 가장 큰 에너지를 가지는지를 판단해 교차 엔트로피 손실을 적용한다. (2) 비율 마스크를 목표로 하는 경우, 목표 소스와 혼합 신호의 크기 비율을 직접 사용해 L1 손실을 적용한다. 두 경우 모두 라벨이 필요 없으며, 오직 시각‑청각 동기화라는 자연스러운 감독 신호만으로 학습이 진행된다. 데이터셋 구축을 위해 저자들은 11종 악기(아코디언, 어쿠스틱 기타, 첼로, 클라리넷, 얼후, 플루트, 색소폰, 트럼펫, 튜바, 바이올린, 실로폰)를 포함한 685개의 유튜브 비디오를 수집하고, 이를 MUSIC(Multimodal Sources of Instrument Combinations) 데이터셋으로 공개하였다. 각 비디오는 솔로 혹은 듀엣 형태이며, 평균 길이는 약 2분이다. 데이터는 비디오와 오디오가 자연스럽게 동기화된 상태이며, 라벨은 전혀 제공되지 않는다. 실험에서는 SDR, SIR, SAR 등 표준 소스 분리 지표를 사용해 기존 NMF 기반 방법, 딥러닝 기반 오디오 전용 분리 모델, 그리고 시각 정보를 활용한 최신 방법들과 비교하였다. PixelPlayer는 특히 듀엣 상황에서 각 악기의 소리를 정확히 분리하고, 시각적 위치와 일치시키는 데 있어 현저히 높은 성능을 보였다. 정량적 결과 외에도, 모델이 출력한 픽셀별 사운드 에너지 맵을 시각화해 보였으며, 동일한 사운드를 생성하는 픽셀들을 클러스터링해 색으로 구분함으로써, 모델이 실제로 “소리를 시각에 grounding”하고 있음을 확인했다. 추가적인 정성 평가에서는 사용자 설문을 통해 모델이 생성한 사운드가 원본과 얼마나 유사한지, 그리고 픽셀 단위 볼륨 조절이 가능한지 등을 검증하였다. 결과는 대부분의 참가자가 모델 출력이 원본과 거의 구분되지 않으며, 특정 악기의 볼륨을 독립적으로 조절하는 것이 가능하다고 평가했다. 논문의 주요 기여는 다음과 같다. 첫째, 라벨이 없는 대규모 영상‑오디오 데이터만으로 픽셀 수준 사운드 로컬라이제이션과 소스 분리를 동시에 학습하는 새로운 자기 지도 프레임워크를 제시했다. 둘째, Mix‑and‑Separate 학습 전략을 통해 복합 청각 장면을 인위적으로 생성하고, 이를 해석하도록 모델을 훈련함으로써 기존 방법보다 뛰어난 분리 성능을 달성했다. 셋째, MUSIC 데이터셋을 공개함으로써 향후 시각‑청각 융합 연구에 대한 표준 벤치마크를 제공했다. 마지막으로, 픽셀 단위 사운드 조절이라는 새로운 응용 가능성을 제시해 비디오 편집, 증강 현실, 로봇 청각 인식 등 다양한 분야에 파급 효과를 기대한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기