다채널 음성 분리와 향상을 위한 컨볼루티브 전이 함수 활용

본 논문은 알려진 혼합 필터를 전제로, STFT 영역에서 컨볼루티브 전이 함수(CTF) 근사를 이용해 다채널 음성 분리·향상 문제를 해결한다. CTF‑MINT, 빔포밍형 역필터, 제약 Lasso 세 가지 복원 방식을 제안하고, 계산 복잡도 감소와 근공통 영점 문제 완화를 입증한다. 다양한 실험을 통해 각 방법의 성능을 비교·평가한다.

저자: Xiaofei Li, Laurent Girin, Sharon Gannot

다채널 음성 분리와 향상을 위한 컨볼루티브 전이 함수 활용
본 논문은 다채널 음성 신호가 방실 반향과 잡음에 의해 왜곡된 상황에서, 알려진 혼합 필터(즉, 각 마이크와 스피커 사이의 RIR)를 전제로 하여 STFT 영역에서 컨볼루티브 전이 함수(CTF) 근사를 이용한 새로운 분리·향상 프레임워크를 제시한다. 기존의 좁은 대역 가정(MTF)에서는 필터 길이가 STFT 윈도우보다 짧아야 정확도가 보장되지만, 실제 환경에서는 반향이 길어 이 가정이 깨진다. CTF는 시간‑도메인 RIR을 주파수‑시간(시간‑프레임) 도메인에서 밴드‑투‑밴드 컨볼루션으로 근사함으로써, 필터 탭 수를 크게 줄이고, 근공통 영점 문제를 완화한다. 논문은 세 가지 복원 방법을 제안한다. 1) **CTF‑MINT**: 다채널 MINT을 CTF 도메인에 적용한다. 목표는 원하는 소스에 대해 임펄스 형태(윈도우 응답과 일치)로 설계된 역필터를 구하고, 다른 소스와 잡음은 0으로 억제한다. 이를 위해 전체 시스템 행렬 A와 목표 벡터 g를 정의하고, 과잉 결정 조건(I > J, 즉 마이크 수가 소스 수보다 많고 필터 길이가 충분히 길 때)에서 정확한 해를 구한다. 또한 필터 에너지 정규화(ℓ₂ 제곱) 항을 추가해 잡음 및 모델 오차에 대한 강인성을 확보한다. 2) **빔포밍형 역필터**: 모든 소스의 CTF가 완전히 알려지지 않은 경우에 대비한다. 원하는 소스에 대해서는 단일 소스 MINT을 적용하고, 전체 출력 파워를 최소화하는 제약을 두어 다른 소스와 잡음을 억제한다. 이는 MPDR(최소 분산 전력) 빔포머와 유사한 구조이며, CTF 정보가 부분적으로만 존재해도 실용적이다. 3) **제약 Lasso**: 소스 스펙트럼의 ℓ₁ 노름을 최소화하면서, ℓ₂ 적합 비용을 사전에 정의된 잡음 허용량 이하로 제한한다. 기존 CTF‑Lasso에서는 정규화 파라미터 설정이 어려웠으나, 여기서는 허용 오차(tolerance)를 직접 설정함으로써 잡음 수준에 맞는 복원을 가능하게 한다. 복소수값 근접 알고리즘(ADMM 기반)을 사용해 효율적으로 최적화한다. 수식 전개에서는 시간‑도메인 혼합 모델을 STFT‑CTF 형태로 변환하고, 각 채널에 대한 컨볼루션 행렬을 정의해 벡터 형태로 표현한다. 역필터 설계는 선형 방정식 Ah = g 혹은 최소 제곱 문제로 정리되며, 정규화 항과 제약 조건을 포함한 최적화 문제로 확장된다. 실험은 다양한 방실 반향 시간(T₆₀ = 0.2~0.8 s), 마이크 배열(2~8채널), 소스 수(2~4), 그리고 SNR = 0~20 dB의 잡음 환경을 고려한다. 평가 지표는 SDR, SIR, SAR 및 PESQ 등이다. 결과는 다음과 같다. - **CTF‑MINT**은 과잉 결정 상황에서 가장 높은 SDR과 SIR을 달성했으며, 특히 근공통 영점 문제 없이 정확한 디레버베이션을 수행한다. - **빔포밍형 역필터**는 CTF 정보가 불완전하거나 마이크 수가 소스 수와 비슷할 때도 견고한 성능을 보여, 실시간 적용 가능성이 높다. - **제약 Lasso**는 잡음 억제와 스펙트럼 희소성 활용에서 경쟁력을 보이며, 정규화 파라미터 선택의 어려움을 tolerance 설정으로 해결한다. 전체적으로 CTF 기반 접근은 기존 MTF 기반 방법에 비해 계산 복잡도가 크게 감소하고, 필터 길이가 짧아도 충분히 정확한 복원을 가능하게 한다. 또한, 제안된 세 방법은 각각의 적용 시나리오(완전한 CTF 정보, 부분적인 정보, 잡음 억제)에서 유연하게 선택될 수 있다. 논문은 향후 CTF 추정 오류, 비정상적인 잡음 모델, 그리고 실시간 구현을 위한 알고리즘 가속화 방안 등을 연구 과제로 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기