멀티채널 음성 분리를 위한 완전 엔드투엔드 파형 모델

본 논문은 기존 단일채널 파형 기반 분리 모델을 확장하여, 다중 마이크 배열에서 얻은 신호를 직접 파형‑파형 형태로 처리하는 엔드투엔드 네트워크를 제안한다. STFT와 IPD를 시간 영역 컨볼루션 커널로 재구성하고, 이를 학습 가능한 파라미터로 전환함으로써 공간 정보를 데이터‑드리븐 방식으로 추출한다. WSJ0‑far‑field 데이터셋에서 제안 모델은 기존 단일채널 및 전통적인 다중채널 방법보다 SI‑SNR 기준으로 크게 향상된 성능을 보였다…

저자: Rongzhi Gu, Jian Wu, Shi-Xiong Zhang

본 논문은 멀티채널 음성 분리를 위한 새로운 엔드투엔드 파형 기반 모델을 제안한다. 기존의 단일채널 파형 모델(TasNet, Conv‑TasNet 등)은 시간‑도메인에서 직접 신호를 인코딩·디코딩하여 뛰어난 성능을 보였지만, 다중 마이크 배열에서 얻는 공간 정보를 활용하기엔 제한적이었다. 전통적인 다중채널 접근법은 STFT 후 IPD(Inter‑Channel Phase Difference)와 같은 공간 특징을 추출해 주파수‑도메인 네트워크에 결합하는 방식을 사용했으며, 이는 윈도우 길이·홉 사이즈 등 하이퍼파라미터에 크게 의존한다. 저자들은 이러한 한계를 극복하기 위해 두 단계의 혁신을 도입한다. 첫 번째 단계에서는 STFT와 IPD를 시간‑도메인 1‑D 컨볼루션 연산으로 재구성한다. STFT는 복소수 커널 \(K_{re}\)와 \(K_{im}\) (실수·허수 부분)로 표현될 수 있으며, 이 커널을 직접 컨볼루션에 적용하면 동일한 스펙트럼을 얻을 수 있다. IPD는 두 마이크 채널에 대한 컨볼루션 결과를 arctan 함수에 넣어 위상 차이를 계산함으로써, 별도의 FFT 없이도 공간 정보를 추출한다. 두 번째 단계에서는 위에서 정의한 커널을 고정된 형태가 아니라 학습 가능한 파라미터로 만든다. 초기값은 전통적인 STFT 커널(윈도우 \(w

멀티채널 음성 분리를 위한 완전 엔드투엔드 파형 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기