조건부 GAN을 활용한 스펙트로그램 기반 잡음 억제와 화자 검증 성능 향상

본 논문은 잡음이 섞인 음성 신호의 품질과 인식 성능을 향상시키기 위한 새로운 접근법으로, 이미지‑to‑이미지 변환에 성공한 Pix2Pix 프레임워크를 음성 스펙트로그램에 적용한 조건부 생성적 적대 신경망(cGAN) 기반의 Speech Enhancement (SE) 모델을 제안한다. 기존의 STSA‑MMSE와 같은 통계적 방법이나 DNN‑SE와 같은 딥러닝 기반 방법은 각각 장점이 있지만, 잡음 유형에 대한 일반화와 고해상도 스펙트로그램 복원에서 한계를 보였다. 이를 극복하고자 저자들은 노이즈 스펙트로그램을 조건(condition)으로 사용하고, 깨끗한 스펙트로그램을 목표(output)로 하는 매핑을 학습한다. 구현 세부 사항은 다음과 같다. 16 kHz 샘플링 음성에 대해 512‑point STFT를 적용해 257‑dimensional magnitude 벡터를 얻고, 256 × 256 × 1 형태로 정규화한다. 생성기 G는 U‑Net 구조를 채택해 인코더와 디코더 사이에 스킵 연결을 두어 고주파 세부 정보를 보존한다. 판별기 D는 PatchGAN 형태로, 입력 스펙트로그램과 조건 스펙트로그램을 2‑channel 이미지로 받아 각 패치를 독립적으로 판별하고, 평균을 통해 최종 판단을 내린다. 손실 함수는 전통적인 GAN 손실에 L1 거리(가중치 100)를 추가해 전역적인 구조를 유지하면서 세부적인 왜곡을 최소화한다. 학습은 Adam 옵티마이저와 배치 크기 1, 10 epoch 동안 진행하며, G를 D보다 두 번 더 업데이트해 판별기의 과도한 학습을 방지한다. 실험은 두 개의 코퍼스(TIMIT, RSR2015)를 사용해 수행한다. RSR2015의 5가지 실제 잡음(바블, 화이트, 카페, 마켓, 비행기)을 각각 10 dB와 20 dB SNR로 섞어 훈련 데이터와 테스트 데이터를 구성한다. 노이즈별 전용 모델(NS‑Pix2Pix)과 모든 잡음을 혼합한 일반 모델(NG‑Pix2Pix)을 각각 학습하고, 동일한 설정으로 DNN‑SE도 NS‑와 NG‑버전으로 구현한다. 성능 평가는 세 가지 지표로 이루어진다. PESQ와 STOI는 각각 음성 품질과 이해도를 정량화하고, GMM‑UBM 기반 화자 검증 시스템의 EER은 실용적인 다운스트림 태스크에서의 효과를 측정한다. 결과는 다음과 같다. PESQ 측면에서 NS‑ 및 NG‑Pix2Pix는 모든 잡음 유형과 SNR 구간에서 평균적으로 STSA‑MMSE와 DNN‑SE보다 높은 점수를 기록했으며, 특히 5‑15 dB SNR 구간에서 가장 큰 개선을 보였다. STOI에서는 DNN‑SE가 전반적으로 우수했지만, 저 SNR(0 dB) 상황에서 특히 카페와 마켓 잡음에 대해 Pix2Pix가 비슷한 수준을 유지했다. 화자 검증 실험에서는 깨끗한 스피커 모델에 Pix2Pix 전처리를 적용했을 때 EER이 가장 낮아, 잡음 억제가 자동화된 인증 시스템에 직접적인 이점을 제공함을 확인한다. 다중 조건 훈련(Multi‑condition training)에서는 DNN‑SE가 약간 더 좋은 성능을 보였지만, 전체적으로 Pix2Pix 기반 SE는 기존 방법과 비교해 경쟁력 있는 결과를 제공한다. 본 연구는 스펙트로그램 기반 cGAN이 잡음 억제와 화자 검증 같은 실시간 음성 처리 시스템에 적용 가능함을 실증적으로 보여준다. 또한, 조건부 학습을 통해 다양한 잡음 환경에 대한 적응성을 확보하고, L1 손실을 결합한 GAN 구조가 스펙트로그램 복원에서 블러링을 최소화한다는 점에서 향후 음성 합성·변환 분야에도 확장 가능성을 시사한다.

조건부 GAN을 활용한 스펙트로그램 기반 잡음 억제와 화자 검증 성능 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기