노이즈에 강인한 사운드 로컬라이제이션을 위한 정규화된 양이진 비율

본 논문은 양쪽 마이크로폰에서 측정된 복소 신호 비율이 복소 t‑분포를 따른다는 수학적 근거를 제시하고, 이를 기반으로 “정규화된 양이진 비율(RBR)”이라는 새로운 특징을 정의한다. RBR은 노이즈와 신호의 순간 SNR에 따라 신뢰도를 자동으로 가중치로 제공하며, EM 기반의 최대우도 추정과 사전 정의된 음향 공간 매니폴드 탐색을 통해 상대 전달 함수(RTF)와 시간 차이(TDOA)를 견고하게 추정한다. 시뮬레이션 및 실제 음성 데이터 실험에…

저자: Antoine Deleforge (PANAMA), Florence Forbes (MISTIS)

본 논문은 양쪽 마이크로폰으로 수집된 복소 스펙트럼 신호의 비율이 복소 t‑분포를 따른다는 새로운 통계적 사실을 제시하고, 이를 활용한 사운드 로컬라이제이션 기법을 개발한다. 1. **문제 정의 및 기존 한계** 전통적인 binaural 로컬라이제이션은 ILD(Interaural Level Difference)와 IPD(Interaural Phase Difference)를 이용해 RTF(Relative Transfer Function)를 추정한다. 대부분의 기존 방법은 시간‑주파수 평면에서 이러한 cue들을 단순 평균하거나 히스토그램, 가중치 기반 EM 등으로 집계한다. 그러나 잡음이 존재하면 비율 m₂/m₁이 편향되고, 각 TF 셀의 신뢰도를 정량적으로 표현하기 어렵다. 2. **복소 t‑분포 정리** 저자들은 복소 정규분포를 따르는 두 변수 m₁, m₂의 비율 y = m₂/m₁가 복소 t‑분포 C𝑇₁(y; μ, λ², ν) 를 따른다는 정리(정리 1)를 증명한다. 여기서 μ = σ₂·ρ*/σ₁, λ² = σ²₂·σ²₁·(1−|ρ|²), ν=1이며, ρ는 두 변수의 상관계수이다. 이 결과는 기존 실수 t‑분포가 가우시안/카이제곱 비율에서 유도되는 것과 유사하지만, 복소 평면에 맞게 확장된 형태이다. 3. **화이트닝 및 정규화된 양이진 비율(RBR) 정의** 잡음 공분산 Rₙₙ(f)를 이용해 Q(f)=Rₙₙ(f)^{-½} 로 화이트닝하면, 화이트된 신호 m₀₁, m₀₂는 표준 복소 정규분포를 갖는다. 이때 비율 y₀=m₀₂/m₀₁는 여전히 복소 t‑분포를 따르지만 평균이 실제 RTF r₀에 σ²_s/(1+σ²_s) 로 스케일링된 형태다. 이를 보정하기 위해 \

노이즈에 강인한 사운드 로컬라이제이션을 위한 정규화된 양이진 비율

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기