다중프레임 단일 마이크 음성 향상을 위한 DNN 기반 음성 존재 확률 추정

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다중프레임 최소 전력 무왜곡응답(MFMPDR) 필터에 필요한 음성 존재 확률(SPP)을 정확히 추정하기 위해 양방향 LSTM 기반 심층신경망(DNN)을 설계한다. 다양한 잡음 유형과 0~20 dB의 SNR 범위에서 학습시킨 DNN은 기존 모델 기반 SPP 추정기보다 높은 정확도를 보이며, 이를 MFMPDR에 적용했을 때 Wiener 필터 대비 잡음 감소와 음성 왜곡 측면에서 현저히 우수한 성능을 달성한다. 실험은 매치·비매치 잡음 및 다양한 SNR 조건에서 수행되었으며, 제안 방법이 특히 저 SNR·비정형 잡음 상황에서 강인함을 입증한다.

상세 분석

이 연구는 다중프레임 기반 단일 마이크 음성 향상 기법인 MFMPDR 필터가 요구하는 핵심 파라미터인 스피치 인터프레임 코릴레이션(IFC) 벡터와 잡음 공분산 행렬을 정확히 추정하기 위한 전제 조건, 즉 각 TF(Time‑Frequency) 셀에서의 음성 존재 확률(SPP) 추정 문제에 초점을 맞춘다. 기존에는 최대우도(ML) 기반 방법이나 복소 가우시안 가정에 기반한 모델식(SPP = P(H1|Y))을 사용했으나, 짧은 STFT 프레임에서는 스피치 IFC가 급격히 변동하므로 SPP 추정이 불안정하고, 이는 MFMPDR 필터의 성능 저하로 이어졌다.

논문은 이러한 한계를 극복하기 위해 양방향 LSTM(BLSTM) 구조를 채택한 DNN을 설계한다. 입력은 잡음이 포함된 STFT 계수의 절댓값 스펙트럼이며, 네트워크는 33‑노드 입력 레이어 → 2개의 256‑노드 BLSTM 레이어 → 2개의 513‑노드 완전 연결 레이어 → 33‑노드 시그모이드 출력 레이어로 구성된다. ReLU와 sigmoid 활성화를 조합해 출력이 0~~1 사이의 확률값이 되도록 설계하였다. 학습 데이터는 WSJ0와 NOISEX‑92를 이용해 0~~20 dB SNR 구간의 다양한 잡음(백색, 자동차, 거리, 사무실 등)으로 구성했으며, 잡음 PSD는 재귀적 평균을 통해 라벨링된 SPP와 함께 제공된다. 손실 함수는 평균제곱오차(MSE)이며, 라벨은 논문식(25)에서 정의된 이론적 SPP 값을 사용한다.

추정된 SPP는 두 가지 방식으로 활용된다. 첫째, 잡음 공분산 행렬 Φ_n(l)의 재귀적 스무딩 계수를 λ_n(l) = α_n + (1‑α_n)·SPP(l) 로 조정해 잡음 PSD 추정의 반응성을 SPP에 따라 가변화한다. 둘째, IFC 벡터 γ_x(l) 를 추정하기 위한 a‑priori SNR ξ(l)와 결합해 식(12)·(22)·(23) 형태로 계산한다. 이렇게 얻어진 γ_x(l)와 Φ_y(l) 를 이용해 MFMPDR 필터 h_MFMPDR = Φ_y⁻¹ γ_x γ_xᴴ Φ_y⁻¹ γ_x 로 최적화한다.

실험에서는 MFMPDR+제안 DNN‑SPP와 기존 모델 기반 SPP, 그리고 전통적인 Wiener Gain를 비교하였다. 평가 지표는 PESQ, STOI, 그리고 SNR 향상량이다. 비매치 잡음(예: 기차 소음)과 저 SNR(0 dB 이하) 상황에서 제안 방법은 PESQ + 0.3~~0.5, STOI + 0.04~~0.07, SNR + 3~5 dB의 개선을 보였으며, 특히 잡음 PSD가 급변하는 경우에도 안정적인 IFC 추정으로 인해 MFMPDR의 잡음 억제 능력이 크게 유지되었다. 반면 모델 기반 SPP는 잡음 PSD 추정이 부정확해 IFC 벡터가 왜곡되어 필터가 과도한 왜곡을 일으키는 경향을 보였다.

한계점으로는 DNN이 학습된 잡음·SNR 범위를 벗어나는 초극저 SNR(‑10 dB 이하)이나 매우 비정형 잡음(예: 음악, 화재 경보)에서는 성능 저하가 관찰되었다. 또한, BLSTM 구조는 실시간 처리에 높은 연산 비용을 요구하므로, 저전력 임베디드 디바이스에 적용하려면 모델 경량화가 필요하다. 향후 연구에서는 멀티채널 확장, 온라인 적응형 학습, 그리고 Transformer 기반 경량 모델을 탐색할 계획이다.

다중프레임 단일 마이크 음성 향상을 위한 DNN 기반 음성 존재 확률 추정

초록

상세 분석

댓글 및 학술 토론

의견 남기기