효율적인 전역 차원 공간 공분산 추정을 위한 ILRMA 기반 블라인드 소스 분리

본 논문은 방향성 음원과 확산 잡음이 동시에 존재하는 다채널 오디오 혼합 신호를 효율적으로 분리하기 위한 새로운 알고리즘을 제시한다. 기존의 독립 저차원 행렬 분석(ILRMA)은 각 소스를 단일 스테어링 벡터(즉, rank‑1 공간 모델)로 가정하고, 비음성 신호(예: 잡음)까지도 동일한 모델로 처리한다는 한계가 있다. 실제 환경에서 확산 잡음은 여러 방향에서 동시에 도달하므로, 이러한 rank‑1 가정은 잡음에 대해 부정확한 모델링을 초래한다. 반면, 멀티채널 NMF(MNMF)와 FastMNMF는 full‑rank 공간 공분산 행렬을 도입해 잡음의 공간적 확산을 정확히 표현하지만, 파라미터 수가 급증해 연산 비용이 크게 늘어나고 초기값에 민감한 문제점이 있다. 이러한 배경에서 저자들은 ILRMA가 목표 음원의 스테어링 벡터를 매우 정확히 추정한다는 사실에 착안한다. ILRMA를 이용해 (1) 목표 음원에 대한 rank‑1 공분산 aₙₕaₙₕᴴ와 (2) M‑1개의 가상 잡음 성분에 대한 rank‑(M‑1) 공분산 Pₙ≠ₙₕ aₙaₙᴴ를 동시에 추정한다. 여기서 M은 마이크 수이며, N=M으로 가정한다. 실험적으로 ILRMA는 목표 음원을 거의 완벽하게 분리하고, M‑1개의 잡음 기저는 목표 음원을 효과적으로 억제한다는 것이 확인되었다. 즉, ILRMA는 “손실된” 마지막 잡음 기저(목표 음원 방향에 해당하는 영 eigenvalue)만을 남겨두게 된다. 이 손실된 기저를 복원하기 위해 저자들은 기대-최대화(EM) 알고리즘을 도입한다. 먼저, R₀ᵤ(i) = W⁻¹_i diag(|w₁ᵢˣ|²,…,|wₙₕᵢˣ|²,0,|wₙₕ₊₁ᵢˣ|²,…,|w_Nᵢˣ|²) W⁻¹_iᴴ 로 정의된 rank‑(M‑1) 잡음 공분산을 계산한다. 여기서 wₙᵢ는 ILRMA에서 얻은 demixing 필터이며, 0은 목표 음원 방향에 해당하는 영 eigenvalue를 의미한다. 손실된 기저는 bᵢ라는 영 eigenvector와 스칼라 λᵢ를 곱한 형태 λᵢ·bᵢbᵢᴴ 로 보강한다. EM의 E‑step에서는 현재 파라미터(λᵢ, rʰ, rᵤ)를 이용해 완전 데이터 로그우도 Q함수를 계산하고, M‑step에서는 좌표 상승법으로 각각 λᵢ, rʰ, rᵤ를 폐쇄형식으로 업데이트한다. 특히 rʰ와 rᵤ는 역감마 사전분포(p(r;α,β))를 도입해 스파시티를 유도함으로써 잡음과 음원의 파워 스펙트럼을 안정적으로 추정한다. 파라미터 업데이트가 수렴하면, 전체 관측 신호의 공분산 Rₓ = rʰ·aₙₕaₙₕᴴ + rᵤ·Rᵤ 로 구성된다. 여기서 Rᵤ = R₀ᵤ + λᵢ·bᵢbᵢᴴ 는 full‑rank 잡음 공분산이다. 이후 다채널 Wiener 필터를 적용해 목표 음원과 잡음을 각각 복원한다. 목표 음원은 \

효율적인 전역 차원 공간 공분산 추정을 위한 ILRMA 기반 블라인드 소스 분리

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기