복소 ISNMF: 위상 인식 단일채널 오디오 분리 모델

본 논문은 단일채널 오디오 소스 분리에서 위상 정보를 효과적으로 활용하기 위한 새로운 확률 모델인 ‘복소 ISNMF(Complex Itakura‑Saito NMF)’를 제안한다. 기존의 ISNMF는 STFT 복소값을 원형 대칭 가우시안(phase가 균등)으로 가정하고, magnitude만을 NMF로 구조화한다. 이러한 가정은 소스가 TF 영역에서 겹칠 때 위상 차이로 인한 잔여 간섭을 초래한다. 이를 극복하고자 저자들은 두 단계의 모델링을 수행한다. 첫 단계에서는 각 소스의 magnitude와 phase를 각각 Rayleigh 분포와 von Mises(VM) 분포로 모델링한다. Rayleigh은 복소 가우시안의 절댓값에 해당하고, VM은 주기적 특성을 갖는 위상 분포로, 위치 파라미터 µ와 농도 파라미터 κ를 가진다. κ가 0이면 위상이 균등하고, κ가 클수록 µ에 집중한다. 이 R VM 모델은 직관적으로 ‘선호 위상’을 정의할 수 있지만, 복합 소스의 합에 대한 닫힌 형태 확률밀도는 존재하지 않는다. 두 번째 단계에서는 R VM 모델을 ‘비등방성 가우시안(Anisotropic Gaussian, AG)’으로 근사한다. AG는 평균 m, 분산 γ, 그리고 복소 공분산 c(관계항) 세 파라미터를 갖는다. 여기서 m, γ, c는 R VM의 1차·2차 모멘트를 그대로 사용해 정의한다. 특히 관계항 c = ρ v e^{i2µ}는 위상의 비대칭성을 직접 반영한다. κ가 0이면 λ=ρ=0이 되어 AG는 원형 대칭 가우시안이 되고, 이는 기존 ISNMF와 동일해진다. 위상 µ에 대한 사전 정보는 ‘sinusoidal model’에 기반한 마코프 체인으로 도입된다. 각 TF 셀의 µ는 이전 프레임 µ와 정규화 주파수 ν에 따라 선형 예측되며, 전이 확률은 VM(농도 τ)으로 모델링한다. τ가 크면 사인파 모델에 강하게 얽힌 위상 추정이 이루어진다. 초기 µ는 Jeffrey’s 비정보적 사전으로 설정한다. 분산 구조는 전통적인 NMF와 동일하게 V_j = W_j H_j 로 제한한다. 여기서 W_j∈ℝ_{+}^{F×K_j}, H_j∈ℝ_{+}^{K_j×T}는 각각 스펙트럼 템플릿과 시간 활성도이다. AG 모델의 평균·분산·관계항은 V_j에 λ, ρ, µ를 곱해 다음과 같이 표현된다: m_{j,ft}=λ

복소 ISNMF: 위상 인식 단일채널 오디오 분리 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기