고순도 단일음원 데이터로 만든 효율적인 쿼리 기반 사운드 분리 데이터셋 Hive

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존의 약한 라벨과 다중 이벤트가 섞인 대규모 인-더-와일드 데이터의 한계를 극복하기 위해, 자동화된 파이프라인으로 고순도 단일 이벤트 클립을 추출하고 의미 일관성을 유지한 합성을 수행한다. 이를 통해 2.4 천시간 규모의 고품질 합성 데이터셋 Hive를 구축하고, 기존 최첨단 모델 SAM‑Audio보다 500배 적은 데이터로도 경쟁력 있는 분리 성능과 제로샷 일반화를 달성함을 실험적으로 입증한다.

상세 분석

이 논문은 쿼리 기반 범용 사운드 분리(USS) 분야에서 데이터 품질이 성능의 병목임을 명확히 규정한다. 기존 연구들은 AudioSet·VGGSound 등 방대한 인-더-와일드 데이터에 의존했지만, 라벨이 약하고 이벤트가 동시에 발생하는 경우가 많아 모델이 배경 잡음을 타깃 클래스의 고유 특성으로 오인하게 만든다. 저자들은 이러한 문제를 해결하기 위해 세 단계의 자동 파이프라인을 설계하였다. 첫째, AudioSet 온톨로지를 474개의 원래 노드에서 의미 중복과 과다 세분을 제거하고 283개의 정제된 리프 노드로 재구성함으로써 라벨‑신호 정렬을 강화한다. 둘째, 메타데이터 필터링, RMS 기반 무음 제거, 10 초 윈도우 슬라이딩 등 전처리를 거친 뒤, Qwen‑3‑Omni와 같은 다중모달 대형 모델을 활용해 이진 폴리포니 검출 및 계층적 코스‑투‑파인 라벨링을 수행한다. 이를 통해 실제로 단일 이벤트만 포함된 클립을 고신뢰도로 추출한다. 셋째, 샘플레이트 불균형을 해결하기 위해 Apollo 기반 초해상도 복원과 안티앨리어싱 다운샘플링을 결합해 모든 클립을 44.1 kHz로 표준화한다. 이렇게 정제된 0.9 M개의 클립(≈2 442 시간)을 기반으로, 이벤트 수(2~5)와 믹스 비율을 사전 정의한 ‘원칙적 혼합(Principled Mix)’ 전략에 따라 합성함으로써 Hive 데이터셋을 만든다. 실험에서는 대표적인 디스크리미네이티브 모델(AudioSep)과 생성 모델(FlowSep)을 Hive만으로 학습시켰으며, SAM‑Audio(≈1 백만 시간)와 비교했을 때 SI‑SDR, PESQ, MOS 등 객관·주관 지표에서 거의 동등하거나 일부 상황에서 우수한 결과를 보였다. 특히, 외부 벤치마크(예: FSD50K, ESC‑50)에 대한 제로샷 테스트에서 기존 대규모 모델 대비 현저히 낮은 데이터량에도 불구하고 경쟁력 있는 일반화 능력을 확인했다. 이는 ‘데이터 순도 > 데이터 규모’라는 핵심 메시지를 실증적으로 뒷받침한다. 논문은 또한 데이터 정제·합성 파이프라인을 오픈소스로 공개함으로써 재현성 및 커뮤니티 확산 가능성을 높였다. 전체적으로 라벨 정밀도와 의미 일관성을 확보한 고품질 합성 데이터가 USS 모델의 데이터 효율성을 크게 향상시킬 수 있음을 보여준다.

고순도 단일음원 데이터로 만든 효율적인 쿼리 기반 사운드 분리 데이터셋 Hive

초록

상세 분석

댓글 및 학술 토론

의견 남기기