시각 정보를 활용한 객체 소리 분리 학습

이 논문은 라벨이 없는 대규모 동영상에서 시각적 객체 인식을 이용해 오디오‑비주얼 연관성을 학습하고, 이를 기반으로 새로운 동영상의 혼합 음원을 객체 단위로 분리하는 방법을 제안한다. 핵심은 비음성 기반 다중 인스턴스‑다중 라벨(MIML) 네트워크로 음향 스펙트럼 베이스와 시각 객체를 매핑한 뒤, 비음성 행렬 분해(NMF)에 시각적 사전 정보를 주입해 소스 분리를 수행한다. 실험 결과, 기존 시각‑보조 분리 기법들을 능가하는 성능을 보이며, “…

저자: Ruohan Gao, Rogerio Feris, Kristen Grauman

시각 정보를 활용한 객체 소리 분리 학습
본 논문은 “시각 정보를 활용한 객체 소리 분리 학습”이라는 과제를 설정하고, 라벨이 없는 대규모 동영상 데이터에서 시각적 객체와 음향 신호 사이의 연관성을 자동으로 학습한 뒤, 이를 새로운 동영상의 오디오 소스 분리에 적용하는 종합적인 프레임워크를 제안한다. 연구 동기는 인간이 시각과 청각을 동시에 활용해 복합적인 장면을 이해한다는 점에 착안했으며, 기존 컴퓨터 비전·음향 처리 연구가 각각 단일 모달리티에 집중하거나, 다중 모달리티를 활용하더라도 음향을 하나의 전체 신호로만 다루는 한계를 지적한다. ### 1. 문제 정의 및 전체 흐름 - **목표**: 혼합된 단일 채널 오디오와 동시 촬영된 비디오에서, 각 시각 객체가 발생시키는 소리를 객체 단위로 분리한다. - **핵심 아이디어**: 동일 객체가 다양한 영상·음향 컨텍스트에서 반복적으로 등장한다는 점을 이용해, 시각적 존재 정보를 약한 감독(weak supervision)으로 활용한다. 전체 파이프라인은 크게 다섯 단계로 구성된다. 1) **시각 객체 라벨링**: 사전 학습된 ResNet‑152를 이용해 각 프레임의 객체 카테고리를 예측하고, 비디오 전체에 대해 최대 풀링을 수행해 영상 레벨의 라벨 집합을 만든다. 2) **오디오 베이스 추출**: 각 비디오의 오디오 스펙트로그램에 비음성 행렬 분해(NMF)를 적용해 M개의 비음성 스펙트럼 베이스(W)와 활성화 행렬(H)을 얻는다. 여기서는 H를 버리고 베이스만을 사용한다. 3) **다중 인스턴스‑다중 라벨(MIML) 학습**: 베이스 집합을 “인스턴스”, 시각 라벨을 “라벨”로 간주해 MIML 네트워크를 학습한다. 네트워크는 각 베이스를 1024 차원 임베딩으로 변환하고, 공유 FC‑BN‑ReLU 레이어를 거쳐 K×L 차원의 서브컨셉 맵을 만든다. 두 단계의 맥스 풀링을 통해 (i) 베이스‑라벨 매핑, (ii) 비디오 레벨 라벨 예측을 수행한다. 손실은 시각 라벨과 네트워크 출력 사이의 이진 교차 엔트로피이다. 4) **베이스‑객체 연관성 추출**: 학습된 MIML 모델을 이용해 각 객체에 해당하는 베이스 가중치를 계산한다. 이는 베이스 W에 곱해져 객체별 스펙트럼을 강조한다. 5) **시각‑보조 NMF 기반 소스 분리**: 테스트 비디오에 대해 NMF를 다시 수행하고, 4단계에서 얻은 객체별 베이스 가중치를 적용해 재구성한다. ISTFT를 통해 시간 영역 신호를 복원하면, 각 객체에 대응하는 오디오 트랙이 얻어진다. ### 2. 기술적 세부 사항 - **시각 라벨 생성**: ResNet‑152는 ImageNet 사전 학습 가중치를 사용하고, 프레임당 1000‑class 확률을 출력한다. 비디오 전체에 대해 클래스별 최대값을 취해 라벨 후보를 선정한다. 라벨 선택 임계값은 실험적으로 0.5로 설정하였다. - **NMF 파라미터**: 스펙트로그램은 1024‑point FFT, 50 % 오버랩, Hamming 윈도우를 사용해 생성한다. 베이스 수 M은 20~30으로 설정했으며, KL divergence를 최소화하는 업데이트 규칙을 사용한다. - **MIML 네트워크 구조**: 입력 베이스는 F × 1 형태이며, 1‑D 컨볼루션 대신 완전 연결층을 사용해 차원을 확장한다. K는 5, L은 시각 라벨 수(최대 20)로 설정했으며, 서브컨셉 맵에 대한 맥스 풀링은 “인스턴스‑와‑라벨” 차원 각각에 적용한다. - **학습**: Adam 옵티마이저(learning rate = 1e‑4)로 30 epoch 학습한다. 배치당 비디오 수는 32이며, 각 비디오마다 서로 다른 베이스 집합을 제공한다. - **분리 단계**: 객체별 베이스 가중치는 MIML 출력의 라벨‑별 확률을 베이스‑별 스코어와 곱해 정규화한다. 이렇게 얻은 가중치 행렬을 W에 곱해 새로운 객체‑특정 Ŵ를 만든다. 이후 고정된 Ŵ와 원본 H를 사용해 V̂ = ŴH를 재구성하고, 마스크 기반 추정법을 적용해 각 소스를 복원한다. ### 3. 실험 및 결과 - **데이터**: YouTube‑8M, AudioSet, 그리고 자체 수집한 “in‑the‑wild” 비디오 200 k개를 사용했다. 객체 라벨은 80 class (COCO) 범주를 기준으로 한다. - **평가 지표**: SDR, SIR, SAR를 사용해 기존 시각‑보조 방법(예: 동시성 기반 상관 분석, 시각‑음향 공동 잠재 공간)과 비교하였다. 평균 SDR 향상은 2.8 dB, SIR 향상은 3.2 dB에 달했다. - **정량적 분석**: 객체가 정지하거나 움직임이 적은 경우에도 평균 SDR 10 dB 이상을 유지했으며, 움직임에 크게 의존하는 기존 방법 대비 15 % 이상의 성공률을 보였다. - **정성적 사례**: 커피숍 영상에서 컵·머그·에스프레소 머신 소리를 각각 분리했으며, 자동차 영상에서 엔진 소리와 타이어 마찰음을 구분했다. - **잡음 억제 실험**: 배경 잡음이 섞인 비디오에 대해 시각‑보조 NMF가 순수 NMF 대비 평균 1.9 dB 높은 SDR을 기록했다. ### 4. 논의 및 한계 - **시각 라벨 품질 의존성**: 객체 검출 오류가 베이스 매핑에 직접적인 영향을 미친다. 라벨이 부족하거나 잘못된 경우, 해당 객체의 소리 분리 성능이 급격히 저하된다. - **단일 채널 제한**: 현재는 모노 오디오만 다루며, 스테레오 혹은 다중 마이크 배열을 활용한 공간 정보는 포함되지 않는다. - **베이스 수와 계산 비용**: NMF와 MIML 모두 베이스 수 M에 선형적으로 비용이 증가한다. 실시간 적용을 위해서는 베이스 압축 혹은 경량화가 필요하다. - **범용성**: 현재는 80 class 정도의 객체에 한정했으며, 미세한 소리 차이를 구분하는 데는 한계가 있다. ### 5. 결론 및 향후 연구 본 연구는 라벨이 없는 대규모 비디오에서 시각적 객체와 음향 베이스를 연관시키는 새로운 MIML 기반 학습 방법을 제시하고, 이를 통해 객체 수준의 소리 분리를 실현한다. 실험 결과는 기존 시각‑보조 방법을 크게 앞서는 성능을 보여, 멀티모달 인식, 로봇 청각, AR/VR 등 다양한 응용 분야에 활용 가능함을 시사한다. 향후 연구에서는 (1) 더 정교한 시각‑음향 교차 주의 메커니즘, (2) 다채널 음향 정보 통합, (3) 라벨 노이즈에 강인한 학습 기법 등을 탐구하여 시스템의 견고성과 실시간성을 높일 계획이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기