노이즈 제거를 위한 파라메트릭 재합성: 음성 품질과 인식 향상
본 논문은 잡음이 섞인 음성을 입력으로, 깨끗한 음성의 WORLD‑vocoder 파라미터를 예측한 뒤 이를 재합성함으로써 기존 마스크 기반 방법과 동등하거나 그 이상의 품질·인식 성능을 달성한다. 텍스트‑투‑스피치(TTS) 시스템보다 실제 잡음 신호에 내재된 운율 정보를 활용해 자연스러운 프로소디를 복원한다. 단일 모델이 두 화자를 모두 처리할 수 있음을 실험적으로 확인하였다.
저자: Soumi Maiti, Michael I M, el
본 논문은 “Speech denoising by parametric resynthesis”라는 제목 아래, 잡음이 섞인 음성을 입력으로 깨끗한 음성의 WORLD‑vocoder 파라미터를 예측하고 이를 재합성함으로써 기존의 마스크 기반 음성 향상 방법을 뛰어넘는 성능을 달성한다는 연구 내용을 담고 있다.
**1. 서론**에서는 전통적인 음성 향상 방법이 잡음 억제와 음성 보존 사이의 트레이드오프에 직면해 있음을 지적한다. 텍스트‑투‑스피치(TTS) 시스템은 텍스트를 기반으로 고품질 음성을 합성하지만, 텍스트만으로는 자연스러운 운율(프로소디)을 재현하기 어렵다. 저자는 잡음이 섞인 실제 음성 자체가 깨끗한 음성의 프로소디 정보를 포함하고 있다는 가설을 세우고, 이를 활용해 “파라메트릭 재합성(parametric resynthesis, PR)”이라는 새로운 프레임워크를 제안한다.
**2. 관련 연구**에서는 기존의 concatenative TTS, parametric TTS, 그리고 최근의 end‑to‑end 잡음‑to‑clean 매핑 모델(예: WaveNet‑like 구조)들을 검토한다. 특히 Rethage et al.의 잡음‑speech‑noise 모델과 비교해, PR은 잡음 모델을 별도로 학습하지 않아도 된다는 점에서 구조가 단순하고 데이터 요구량이 적다. 또한, WORLD‑vocoder를 사용함으로써 음향 파라미터를 직접 다루는 것이 가능해진다.
**3. 모델 개요**는 두 단계로 구성된다.
- **예측 단계**: 입력은 잡음이 섞인 음성의 로그 멜 스펙트럼이며, 출력은 WORLD‑vocoder가 제공하는 4가지 파라미터(스펙트럼 엔벨로프, 기본 주파수 F0, 유/무음 결정, 비주기성 에너지)와 그 1차·2차 미분까지 포함한 총 66차원 벡터이다. 네트워크는 초기에는 ±4 프레임 컨텍스트를 갖는 4‑layer Feed‑Forward DNN(512 노드)으로 시작했으며, 이후 LSTM(2 layer, 512 unit)으로 교체해 시간적 컨텍스트를 더 효과적으로 활용한다. 손실은 MSE이며, Merlin TTS 툴킷의 학습 목표와 동일하게 설계되었다.
- **합성 단계**: 예측된 파라미터를 WORLD‑vocoder에 입력해 파형을 복원한다. WORLD는 분석‑합성 과정에서 거의 손실이 없으며, 파라미터 자체가 TTS에서 사용되는 것과 동일하기 때문에 기존 TTS와 직접 비교가 가능하다.
**4. 실험**은 다음과 같이 설계되었다.
- **데이터**: CMU Arctic(4 화자)에서 11 032개의 문장을 사용하고, CHiME‑3 환경 소음(거리, 보행자, 카페, 버스)과 혼합해 SNR이 –6 dB부터 21 dB까지 다양하게 만든다. 주요 실험은 여성 화자 “slt”와 남성 화자 “bdl”에 대해 수행한다. 훈련/검증/테스트 비율은 1000/66/66이다.
- **객관적 평가**: TTS와 PR‑clean(깨끗한 음성을 입력으로 한 상한 모델) 대비 MCD, BAPD, F0 RMSE, CORR, VUV를 측정했다. PR‑clean은 MCD 2.68 dB, CORR 0.96 등 거의 완벽에 가까운 성능을 보였으며, PR(노이즈 입력)도 TTS보다 현저히 낮은 MCD(4.81 dB)와 높은 CORR(0.95)을 기록했다.
- **음성 향상 평가**: STOI와 PESQ를 사용해 OWM(oracle Wiener mask), DNN‑IRM(예측 마스크)와 비교했다. OWM이 최고였지만 PR은 DNN‑IRM보다 일관되게 높은 PESQ(2.43 vs 2.26)와 STOI(0.87 vs 0.80)를 달성했다. VED(완전 vocoder 인코딩‑디코딩)와 PR‑clean은 거의 동일한 객관적 점수를 보이며, vocoder 자체의 손실이 작음을 확인했다.
- **주관적 평가**: 청취자 4명이 84개의 문장을 듣고 단어 인식률을 측정했으며, PR‑clean은 90 % 이상으로 깨끗한 음성과 동등한 인식률을 보였다. MUSHRA 테스트에서는 PR이 OWM보다 약간 높은 노이즈 억제 점수를 얻었고, 전체 품질에서는 OWM과 거의 차이가 없었다. 이는 PR이 “노이즈‑프리” 음성을 재생성하면서도 인간 청취자가 느끼는 품질을 유지한다는 것을 의미한다.
- **스피커 종속성**: 단일 모델이 두 화자를 모두 처리하도록 훈련했을 때, 다중 화자 모델은 개별 화자 모델에 비해 MCD가 약간 높았지만 VUV와 F0 상관 등에서는 경쟁력을 유지했다. 이는 파라메트릭 재합성 방식이 화자 일반화에 충분히 유연함을 시사한다.
**5. 결론 및 향후 과제**에서는 PR이 텍스트‑투‑스피치보다 실제 잡음 신호에 내재된 프로소디를 효과적으로 활용해 고품질 무잡음 음성을 생성한다는 점을 강조한다. 현재 한계는 WORLD‑vocoder의 재현 한계와 화자‑불변 모델링 부족이다. 향후 연구에서는 신경 vocoder(예: WaveNet, HiFi‑GAN)와 결합해 품질을 더욱 끌어올리고, EEG·ECoG와 같은 생체 신호를 입력으로 활용하는 멀티모달 확장을 제안한다.
전반적으로 이 논문은 잡음 억제와 텍스트‑투‑스피치 기술을 융합한 새로운 접근법을 제시함으로써, 잡음이 포함된 실제 음성에서 직접 프로소디를 추출하고, 이를 기반으로 고품질 무잡음 음성을 재생성하는 가능성을 열었다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기