전방향 전역 공분산 모델을 이용한 과소결정 리버브 오디오 소스 분리

본 논문은 과소결정(마이크 수보다 소스 수가 많은) 콘볼루션 블라인드 소스 분리 문제에서, 각 소스의 공간 특성을 전역(full‑rank) 공분산 행렬로 모델링하고 EM 알고리즘을 통해 파라미터를 추정한다. 네 가지 공분산 모델(두 개의 rank‑1 모델, full‑rank 직접+확산 모델, 완전 자유(full‑rank) 모델)을 제안하고, 계층적 군집 기반 초기화와 DOA 정렬 절차를 도입해 실험적으로 기존 방법보다 향상된 성능을 보임을 입증…

저자: Ngoc Duong (INRIA - Irisa), Emmanuel Vincent (INRIA - Irisa), Remi Gribonval (INRIA - Irisa)

본 논문은 다채널 오디오 신호가 여러 음원(스피치, 음악 등)의 혼합으로 이루어진 상황에서, 마이크 수가 음원 수보다 적은 과소결정(convolutive blind source separation, CBSS) 문제를 다룬다. 기존 방법들은 주로 시간‑주파수 영역에서 좁은 대역 가정을 이용해 각 주파수 bin마다 복소 가중치 벡터 h_j(f)만을 추정했으며, 이는 reverberation이 길게 지속되는 실제 실내 환경에서 정확도가 급격히 떨어지는 한계를 가지고 있었다. 저자는 이러한 한계를 극복하기 위해, 각 음원의 공간 이미지 c_j(n,f)를 평균이 0인 복소 가우시안 변수로 모델링하고, 그 공분산을 두 부분인 시간‑변동 스칼라 v_j(n,f)와 주파수‑고정 공간 공분산 행렬 R_j(f)로 분해한다. 이때 R_j(f)는 음원의 공간적 특성(방향, 확산 정도)을 포괄적으로 표현한다. 논문은 네 가지 구체적인 공분산 모델을 제안한다. 첫 번째는 rank‑1 콘볼루티브 모델로, 전통적인 h_j(f)h_j^H(f) 형태의 공분산을 사용한다. 두 번째는 무향(anechoic) 환경을 가정한 rank‑1 무향 모델로, 거리와 지연을 파라미터화한 a_j(f)벡터를 이용한다. 세 번째는 full‑rank 직접+확산 모델로, 직접 파트와 확산 파트를 각각 a_j(f)a_j^H(f)와 σ_rev^2·Ψ(f) 로 모델링해, reverberation에 의한 공간 확산을 물리적으로 해석한다. Ψ(f)는 마이크 간 거리와 주파수에 따라 정의된 실험적 상관 행렬이며, σ_rev^2는 방의 반사계수와 부피를 통해 계산된다. 네 번째는 가장 일반적인 full‑rank 자유 모델로, R_j(f)를 전혀 제약하지 않고 완전 자유 행렬로 추정한다. 파라미터 추정은 기대‑최대화(EM) 알고리즘을 기반으로 한다. E‑step에서는 현재 파라미터로부터 각 소스의 조건부 평균과 공분산을 계산하고, M‑step에서는 v_j(n,f)와 R_j(f)를 최대우도 방식으로 업데이트한다. 특히 rank‑1 모델에서는 혼합 행렬 H(f) 자체가 파라미터이므로, EM 적용을 위해 잡음 b(n,f)를 도입한 확장 모델 x(n,f)=H(f)s(n,f)+b(n,f) 를 사용한다. 이때 b(n,f)는 정규분포 잡음으로 가정한다. EM 알고리즘은 초기값에 민감하기 때문에, 저자는 계층적 군집 기반 초기화 방식을 설계했다. 각 주파수 bin에서 정규화된 혼합 STFT 벡터를 클러스터링하고, 가장 큰 J개의 클러스터를 선택해 초기 h_j(f)와 R_j(f)를 해당 클러스터 평균으로 설정한다. 이 방법은 기존의 무작위 초기화나 DOA 기반 초기화보다 빠른 수렴과 높은 성능을 보였다. 또한, 주파수별로 독립적으로 추정된 파라미터들의 순서를 맞추기 위해, 각 소스의 DOA를 추정하고 이를 기반으로 permutation alignment을 수행한다. 실험은 두 가지 시나리오로 구성되었다. 첫 번째는 합성 reverberant mixture로, 다양한 T60(0.3~0.7초)와 SNR 조건에서 2~4개의 음원을 2개의 마이크로 녹음한 데이터를 사용했다. 두 번째는 실제 방 안에서 녹음된 라이브 스피치 데이터로, 마이크 배열은 동일했지만 실제 반사와 잡음이 포함된 상황이었다. 평가 지표는 SDR, SIR, SAR을 포함한 BSS_EVAL 패키지를 이용했으며, 비교 대상은 DUET, ℓ1‑norm 최소화, 그리고 기존 rank‑1 EM 기반 방법이었다. 결과는 다음과 같다. (1) full‑rank 자유 모델은 모든 실험 조건에서 평균 SDR을 2~4 dB 정도 향상시켰다. (2) full‑rank 직접+확산 모델은 물리적 해석 가능성에도 불구하고, SDR과 SIR에서 rank‑1 모델보다 유의미하게 우수했다. (3) 초기화 방법이 EM 수렴 속도와 최종 성능에 큰 영향을 미쳤으며, 제안된 군집 초기화가 가장 안정적이었다. (4) permutation alignment은 특히 full‑rank 자유 모델에서 필수적이었다; 이를 적용하지 않으면 주파수별 스펙트럼이 뒤섞여 최종 음질이 크게 저하된다. 논문의 주요 기여는 다음과 같다. 첫째, reverberant 환경을 고려한 full‑rank 공간 공분산 모델을 체계적으로 제시하고, 이를 EM 프레임워크에 통합했다. 둘째, 파라미터 초기화와 permutation alignment이라는 실용적인 문제를 해결하기 위한 구체적인 알고리즘을 제공했다. 셋째, 광범위한 실험을 통해 제안된 모델이 기존 방법보다 일관되게 우수함을 입증했다. 마지막으로, full‑rank 자유 모델과 직접+확산 모델 사이의 트레이드오프(복잡도 vs. 물리적 해석)를 명확히 제시함으로써, 실제 응용에서 선택 기준을 제공한다. 향후 연구 방향으로는 비정상적인 방음 특성을 가진 비균일 확산 모델링, 실시간 구현을 위한 온라인 EM 변형, 그리고 딥러닝 기반 사전 정보와의 하이브리드 접근이 제시된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기