움직이는 음원 분리를 위한 다채널 NMF와 음향 트래킹 융합
본 논문은 이동하는 음원의 방향을 실시간으로 추적한 뒤, 시간‑가변 공간 공분산 행렬(SCM)을 이용한 다채널 비음수 행렬분해(NMF) 모델을 적용해 스펙트로그램을 추정하고, 단일 채널 위너 필터로 각 음원을 복원하는 새로운 분리 프레임워크를 제안한다. 트래킹 오류에 대한 내성을 실험적으로 검증하였다.
저자: Joonas Nikunen, Aleks, r Diment
본 논문은 이동하는 음원의 분리를 목표로, 음향 트래킹과 다채널 비음수 행렬분해(NMF)를 결합한 새로운 프레임워크를 제안한다. 전체 시스템은 크게 두 부분으로 나뉜다. 첫 번째는 소스의 방향을 추정하고 연속적인 궤적을 만들기 위한 트래킹 모듈이며, 두 번째는 이 트래킹 정보를 이용해 시간‑가변 공간 공분산 행렬(SCM)을 포함한 다채널 NMF 모델을 학습하고, 최종적으로 위너 필터를 통해 각 소스를 복원한다.
1. **음향 트래킹**
- 마이크 어레이의 입력 신호에 대해 프레임 단위로 스티어드 응답 파워(SRP)를 계산한다. SRP는 특정 방향으로 신호를 스티어링했을 때 얻어지는 에너지 합계이며, 이동 소스가 존재하면 여러 피크가 나타난다.
- 각 프레임의 SRP 히스토그램을 래핑 가우시안 혼합 모델(WGMM)로 피팅한다. WGMM은 평균(방향), 분산(불확실성), 가중치(강도)를 제공하며, 이는 후속 트래커에 입력되는 측정값이 된다.
- 파티클 필터링 기반의 라오‑블랙웰린 파티클 필터(RBPF)를 사용해 다중 소스의 탄생·소멸·데이터 연관을 동시에 수행한다. 트래커는 각 소스에 대해 프레임별 DOA 추정값과 그 분산을 출력한다. 이 분산은 이후 SCM을 정의할 때 가우시안 형태의 공간 확산을 모델링하는 데 활용된다.
2. **시간‑가변 SCM을 포함한 다채널 NMF**
- 기존 다채널 NMF는 고정된 SCM을 가정하고 스펙트럼 템플릿과 활성화를 학습한다. 이동 소스의 경우 SCM이 시간에 따라 변하므로, 본 논문은 프레임별로 SCM을 재계산한다.
- SCM은 트래커가 제공한 DOA와 분산을 이용해 유닛 벡터 k와 마이크 위치 차이를 기반으로 계산된 TDOA를 통해 만든 steering vector의 외적 형태로 정의된다. 분산이 클수록 SCM은 더 넓은 방향을 커버하도록 가우시안 형태로 확산된다.
- NMF는 복소수 스펙트럼 X를 템플릿 W와 활성화 H의 곱으로 근사하고, 각 템플릿에 대응하는 SCM Σ를 곱해 관측을 재구성한다. 목적 함수는 Frobenius 노름 ‖X‑∑_p Σ_p·(W·H)_p‖_F^2이며, EM‑유사 업데이트 식을 통해 W, H, Σ를 교대로 최적화한다.
- 학습이 완료되면 각 소스 p에 대한 스펙트럼 파워 V_p = W·H 를 얻고, 이를 단일 채널 위너 필터에 적용해 마스크 M_p = V_p / (∑_q V_q) 를 만든다.
3. **신호 복원 및 평가**
- 위너 마스크를 적용해 각 소스의 복소수 스펙트럼을 추출하고, 역 STFT와 overlap‑add를 통해 시간 도메인 신호를 복원한다. 또한, 복원된 다채널 신호에 Delay‑and‑Sum 빔포밍을 적용해 단일 채널 출력도 제공한다.
- 실험은 4‑채널 소형 어레이(직경 약 10 cm)로 녹음한 2·3개의 이동 화자 데이터를 사용했다. 객관적 지표인 SDR(신호‑대‑잡음 비율), SIR(신호‑대‑간섭 비율), SAR(신호‑대‑왜곡 비율)에서 제안 방법은 전통적인 DSB(Delay‑and‑Sum Beamformer)와 MVDR(Minimum Variance Distortionless Response)보다 평균 2–3 dB 높은 성능을 보였다. 또한, 이상적인 비율 마스크(IRM)와 비교했을 때도 근접한 결과를 얻었다.
- 트래커의 추정값을 주석된 정답 궤적으로 교체한 실험에서는 성능 차이가 통계적으로 유의미하지 않았으며, 이는 트래커가 제공하는 불확실성 정보가 SCM에 적절히 반영되어 트래킹 오류에 강인함을 의미한다.
4. **핵심 기여 및 의의**
- **시간‑가변 SCM을 도입한 다채널 NMF 모델**: 이동 소스의 공간 변화를 정량적으로 모델링함으로써 기존 고정‑SCM 접근법의 한계를 극복했다.
- **트래커 불확실성을 SCM에 통합**: WGMM‑기반 측정과 파티클 필터링에서 얻은 분산을 직접 SCM의 가우시안 확산 파라미터로 사용해, 트래킹 오차가 직접적으로 공간 모델에 반영되도록 설계했다.
- **두 단계(트래킹 → 분리) 구조**: 실시간 트래킹은 온라인으로 수행하고, NMF는 전체 신호를 대상으로 오프라인 최적화함으로써 계산 효율성과 성능을 동시에 확보했다.
- **실험적 검증**: 실제 이동 화자 녹음과 다양한 소스 수(2, 3)에서 일관된 성능 향상을 입증했으며, 트래킹 오류에 대한 내성을 정량적으로 평가했다.
결론적으로, 본 논문은 이동 음원 분리 문제에 대한 실용적이고 이론적으로도 견고한 해결책을 제시한다. 제안된 프레임워크는 스마트 스피커, 증강 현실 오디오, 다중 화자 인식 등 실시간 음향 처리 응용 분야에 바로 적용 가능하며, 향후 딥러닝 기반 스펙트럼 모델과 결합하거나, 3‑차원 DOA 추정으로 확장하는 연구가 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기