확률적 VAE와 NMF 통합 기반 단일채널 음성 향상

본 논문은 단일채널 음성 향상을 위한 새로운 확률적 프레임워크를 제시한다. 기존 방법은 크게 두 가지로 나뉜다. 첫 번째는 대량의 깨끗한 음성과 잡음이 섞인 데이터를 이용해 입력‑출력 매핑을 직접 학습하는 감독식 딥 뉴럴 네트워크(DNN) 방식이다. 이 방식은 높은 성능을 보이지만, 훈련에 사용되지 않은 새로운 잡음 환경에 취약하다. 두 번째는 사전에 깨끗한 음성의 기저 스펙트럼을 학습하고, 실시간으로 잡음에 대한 기저를 적응시키는 반감독식 비음수 행렬분해(NMF) 방식이다. NMF는 잡음에 대한 적응성을 제공하지만, 음성 스펙트럼을 선형 결합으로만 표현한다는 비현실적인 가정 때문에 신호 왜곡이 발생한다. 이러한 문제점을 해결하기 위해 저자들은 VAE와 NMF를 결합한 통합 확률 모델(VAE‑NMF)을 설계한다. VAE는 사전 학습 단계에서 대규모 깨끗한 음성 스펙트로그램을 이용해 잠재 변수 z 를 표준 정규분포로부터 샘플링하고, 디코더를 통해 복소 가우시안 파라미터 σ_s(f;z) 를 출력한다. 즉, VAE는 음성 스펙트럼의 비선형 사전분포를 제공한다. 반면 잡음은 전통적인 NMF 모델을 유지하되, 파워 스펙트럼을 기저 W 와 활성화 H 의 곱으로 표현하고, 각각 감마 사전분포를 부여해 베이지안 추론이 가능하도록 만든다. 관측된 복소 스펙트럼 X 는 음성 S 와 잡음 N 의 합으로 모델링되며, 각 성분은 복소 가우시안 분포를 따른다. 이를 파워 스펙트럼에 대한 지수분포 형태의 우도함수로 변환하면 Itakura‑Saito 발산 최소화와 동일한 목적을 갖는다. 후방분포 p(W, H, Z | X) 는 직접 계산이 불가능하므로, 마르코프 연쇄 몬테카를로(MCMC)와 메트로폴리스 샘플링을 이용해 근사한다. W 와 H 는 감마‑역가우시안(GIG) 분포에서 직접 샘플링할 수 있지만, Z 는 비선형 디코더와 결합된 형태이므로 메트로폴리스‑헤이스팅스 알고리즘을 적용한다. 초기값은 VAE 인코더가 제공하는 z 의 추정값을 사용해 수렴 속도를 높인다. 샘플링이 완료된 후, Wiener 필터 형태의 식 \hat{s}_{ft}=σ_s(f;z_t)·x_{ft}/(σ_s(f;z_t)+∑_k w_{fk}h_{kt}) 를 통해 청음 스펙트럼을 복원한다. 여기서 σ_s 는 VAE 디코더가 제공한 음성 파워 스펙트럼이며, NMF 기반 잡음 파워와 합산된 뒤 관측 스펙트럼에 비례하여 청음 스펙트럼을 추정한다. 실험에서는 CHiME‑3 데이터셋을 사용해 네 가지 실내·실외 잡음 환경(버스, 카페, 보행자 구역, 교차로)에서 평균 SNR 5.8 dB, 그리고 DEMAND 데이터베이스에서 보이지 않는 네 가지 잡음(지하철, 카페, 광장, 거실)에서 SNR 5 dB 조건으로 평가하였다. 성능 평가는 신호‑왜곡 비율(SDR)로 측정했으며, 제안 모델은 기존 DNN 기반 감독식 방법보다 보이지 않는 잡음 상황에서 평균 1.2 dB 이상의 SDR 향상을 달성했다. 특히, VAE가 제공하는 풍부한 음성 사전과 NMF의 저차원 잡음 모델이 상호 보완적으로 작용해, 대규모 라벨링 데이터 없이도 실시간 잡음 적응이 가능한 강건한 음성 향상 시스템을 구현할 수 있음을 입증하였다. 결론적으로, VAE‑NMF는 비선형 음성 사전과 베이지안 잡음 모델을 결합함으로써 기존 방법들의 한계를 극복하고, 다양한 실환경에서 높은 음성 품질을 유지하는 효과적인 솔루션을 제공한다.

확률적 VAE와 NMF 통합 기반 단일채널 음성 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기