잠재 공간에서 말과 잡음 구분이 향상된 단일채널 VAE 기반 음성 강화
초록
본 논문은 사전 학습된 두 개의 VAE(음성용 CV‑AE, 잡음용 NV‑AE)를 이용해 잡음이 섞인 음성을 처리하는 Bayesian permutation training 기반 단일채널 음성 강화 시스템을 연구한다. 표준 VAE 대신 Disentangled Inferred Prior VAE(DIP‑VAE) 손실을 적용해 잠재 공간에서 음성과 잡음의 표현을 명확히 구분하도록 설계하고, β, λ_od, λ_d 파라미터 변화를 통해 잠재 표현이 강화 성능에 미치는 영향을 실험적으로 분석한다. DNS3, WSJ0‑QUT, VoiceBank‑DEMAND 데이터셋에서 음성‑잡음 구분이 뚜렷한 잠재 공간이 SI‑SNR 및 PESQ 지표 모두에서 기존 방식보다 크게 향상됨을 확인하였다.
상세 분석
이 연구는 기존 VAE 기반 음성 강화 모델이 갖는 잠재 표현의 중첩 문제를 근본적으로 해결하고자 한다. 기존 PV‑AE 시스템은 깨끗한 음성(CV‑AE)과 잡음(NV‑AE) 각각을 독립적으로 사전 학습한 뒤, noisy VAE(NSV‑AE)가 noisy 스펙트럼으로부터 두 잠재 변수를 동시에 추정하도록 설계된다. 핵심은 사전 학습된 CV‑AE와 NV‑AE가 제공하는 잠재 분포가 NSV‑AE의 학습 목표가 된다는 점이다. 따라서 사전 학습 단계에서 얻어지는 잠재 표현의 품질이 전체 시스템 성능을 좌우한다는 가정이 성립한다.
논문은 이 가정을 검증하기 위해 표준 ELBO 기반 VAE 대신 DIP‑VAE 손실을 적용한다. DIP‑VAE는 잠재 차원 간 상관관계를 억제하고, 각 차원이 독립적인 정규분포를 따르도록 정규화한다. 구체적으로는 (i) KL‑term에 가중치 β를 부여해 posterior와 prior 간의 KL 발산을 조절하고, (ii) off‑diagonal penalty λ_od와 diagonal penalty λ_d를 통해 평균 벡터 µ의 공분산을 단위 행렬에 가깝게 만든다. β=1, λ_od=10⁴, λ_d=10² 조합이 가장 좋은 성능을 보였으며, 이는 잠재 공간에서 음성·잡음이 명확히 구분되는 구조를 만든다. 반면 β=0( KL term 제거) 설정은 잠재 분포의 정규화가 약화돼 재구성 성능이 저하된다.
실험에서는 네 가지 사전 학습 설정을 비교한다. (1) 표준 VAE(β=1, λ=0), (2) DIP‑VAE(β=1, λ_od=10⁴, λ_d=10²), (3) KL term 제거된 표준 VAE(β=0), (4) KL term 제거된 DIP‑VAE(β=0, λ_od=10⁴, λ_d=10²). 각 설정에 대해 CV‑AE와 NV‑AE의 재구성 SI‑SNR을 측정하고, 이를 기반으로 NSV‑AE가 생성한 잠재 변수를 이용한 최종 음성 강화 성능을 SI‑SNR 및 PESQ로 평가한다. 결과는 다음과 같다.
- CV‑AE 재구성은 설정(3)에서 가장 높았으며, 이는 KL term을 없애고 순수히 재구성 손실에 집중했을 때 음성 스펙트럼을 더 정확히 복원함을 의미한다.
- NV‑AE 재구성은 설정(2)에서 최고였으며, 잡음은 구조가 복잡하고 비정형적이기 때문에 잠재 차원 간 독립성을 강제하는 DIP‑VAE가 잡음 특성을 더 잘 포착한다.
- 전체 PV‑AE 시스템은 모든 경우에서 비인과적 R‑VAE보다 우수했으며, 특히 DNS3(매치드) 데이터셋에서 SI‑SNR이 1.2 dB, PESQ가 0.15 점 상승했다.
- 잠재 공간이 명확히 분리될수록 NSV‑AE가 noisy 입력을 두 개의 독립적인 posterior로 정확히 분해해 CV‑AE와 NV‑AE 디코더에 전달할 수 있다. 이는 마스크 기반 복원(식 10) 단계에서 잡음 억제와 음성 보존을 동시에 최적화하는 효과를 만든다.
이러한 결과는 VAE 기반 음성 강화에서 사전 학습 단계의 손실 설계가 전체 파이프라인에 미치는 영향을 정량적으로 보여준다. 특히, β와 λ 파라미터를 조절해 잠재 분포의 정규화와 차원 간 독립성을 동시에 만족시키면, 기존 ELBO 기반 VAE가 갖는 “잠재 중첩” 문제를 완화하고, 실제 환경(다양한 SNR, 데이터셋 불일치)에서도 강인한 성능을 확보할 수 있다. 향후 연구에서는 (i) 더 높은 차원의 잠재 공간, (ii) 비선형 공분산 정규화, (iii) 실시간 구현을 위한 경량화된 GRU 구조 등을 탐색함으로써, 실시간 통신 및 AR/VR 등 저지연 음성 처리 분야에 적용 가능성을 확대할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기