언어 기반 양이음 사운드 이벤트 추출·위치 추정 모델 LuSeeL
초록
LuSeeL은 텍스트 프롬프트로 지정된 목표 사운드를 양이음(바이노럴) 혼합음에서 추출하고, 동시에 방향을 예측하는 듀얼 태스크 네트워크이다. T5 텍스트 인코더와 FiLM 기반 조건부 변조를 활용해 시간·주파수 도메인 하이브리드 트랜스포머(HT‑Demucs)와 결합하고, GCC‑PHAT 특징을 이용해 DoA(방향) 추정 모듈을 구성한다. AudioCaps 기반 2·3소스 바이노럴 데이터셋에서 단일채널 및 단일태스크 베이스라인을 크게 능가한다.
상세 분석
LuSeeL은 기존의 ‘universal sound extraction’ 연구가 주로 단일채널 파형에 국한된 점을 극복하고, 인간 청각을 모사한 바이노럴 신호의 공간 정보를 적극 활용한다는 점에서 혁신적이다. 핵심 설계는 네 가지 요소로 나뉜다. 첫째, 텍스트 프롬프트를 고정된 T5 인코더로 변환한 뒤, 추가적인 self‑attention 레이어를 통해 오디오와 공유되는 임베딩 공간으로 매핑한다. 이는 언어와 청각 사이의 의미적 정렬을 강화한다. 둘째, 시간‑도메인(T‑audio)과 주파수‑도메인(F‑audio) 두 경로를 동시에 처리하는 HT‑Demucs 기반 하이브리드 트랜스포머를 사용한다. 각각 4개의 컨볼루션·디컨볼루션 스택과 3개의 self‑attention, 2개의 cross‑attention 블록을 배치해 시계열과 스펙트럼 정보를 보완한다. 셋째, FiLM 레이어를 통해 텍스트 임베딩을 양 경로에 조건부로 주입함으로써, 언어적 힌트가 시간·주파수 특징에 직접적인 변조 효과를 미치게 한다. 이는 목표 사운드가 어떤 스펙트럼 패턴을 가질지, 어느 시간대에 등장할지를 텍스트가 안내하도록 만든다. 넷째, 위치 추정 모듈은 GCC‑PHAT를 이용해 양이음 채널 간의 시간 차이를 추출하고, 추출된 스펙트럼 스트림의 self‑attention 출력들을 1D Conv로 변환한 뒤 F‑DoA 인코더와 결합한다. 최종 DoA 디코더는 360도 방위에 대한 확률 분포를 출력하고, Gaussian‑smoothed 라벨과 MSE 손실을 사용해 학습한다.
손실 함수는 두 파트를 가중합한다. 음향 추출은 SI‑SNR(스케일 불변 신호 대 잡음비)와 다중 해상도 스펙트럼 손실을 결합한 L_signal을 사용해 파형과 스펙트럼 양쪽에서 재구성을 촉진한다. 위치 추정은 MSE 기반의 확률 분포 손실 L_MSE를 적용한다. γ=10이라는 가중치를 두어 위치 정보가 추출 네트워크에 충분히 역전파되도록 설계했으며, 이는 “위치가 추출에 힌트를 제공한다”는 저자 가설을 실험적으로 검증한다.
데이터는 AudioCaps의 46k 클립을 활용해, 각 클립을 23개의 소스로 혼합하고 HRIR을 적용해 바이노럴 신호를 합성한다. SNR은 -5+5 dB, 방위는 0~360°를 균등 샘플링한다. 실험에서는 단일채널 T‑HTDemucs, 언어 기반 바이노럴 DoA 모델(MLP‑GCC)과 비교했으며, LuSeeL의 전체 모델(LuSeeL Both)과 두 가지 ablation(추출 전용, GCC‑PHAT 제거)도 평가했다.
결과는 2소스 상황에서 SI‑SNRi가 20.3 dB, SDRi가 21.6 dB로 기존 단일채널(7.7 dB)과 바이노럴 추출 전용(17.6 dB)을 크게 앞선다. 위치 정확도는 ±5° 내 89.9 %이며 MAE는 7.0°로 MLP‑GCC(41.1 %/51.6°)를 압도한다. 3소스에서도 비슷한 추세가 유지돼, 복잡한 음향 환경에서도 공간 정보와 언어 조건이 시너지 효과를 발휘함을 확인한다.
이 논문의 주요 기여는 (1) 언어‑조건부 바이노럴 사운드 추출과 위치 추정을 하나의 엔드‑투‑엔드 프레임워크에 통합, (2) 하이브리드 시간‑주파수 트랜스포머와 FiLM을 통한 멀티모달 조건부 변조, (3) GCC‑PHAT와 스펙트럼 특징을 결합한 DoA 디코더 설계, (4) 위치 손실을 추출 네트워크에 역전파시켜 양방향 이득을 얻는 학습 전략이다. 향후 실제 바이노럴 녹음 데이터와 실시간 로봇/AR 시스템에 적용한다면, 인간‑기계 상호작용에서 청각적 상황 인식 능력을 크게 향상시킬 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기