일반화된 음성 복원을 위한 GAN 기반 스피치 엔헨스먼트

본 논문은 “일반화된 스피치 엔헨스먼트(Generalized Speech Enhancement)”라는 새로운 문제 정의에서 출발한다. 기존 연구는 주로 잡음·리버버레이션 같은 가산성(noise) 왜곡에 초점을 맞추었지만, 실제 통신·녹음 환경에서는 클리핑, 청크 손실, 대역폭 축소, 위스퍼링 등 보다 공격적인 왜곡이 동시에 발생한다. 이러한 왜곡은 청취자에게 intelligibility뿐 아니라 naturalness와 speaker identity까지 크게 손상시킨다. 이를 해결하기 위해 저자들은 시간‑도메인 GAN인 SEGAN을 기반으로 두 가지 주요 개선을 제안한다. 첫 번째는 판별기 D 에 ‘음향 회귀 손실(acoustic regression loss)’을 추가하는 것이다. D는 기존의 진위 판단 외에도 중간 레이어에서 로그 파워 스펙트럼(LPS), 멜‑주파수 켑스트럼 계수(MFCC), 프로소디 특성(피치, 에너지 등)을 예측하도록 설계된다. 이 다중‑태스크 출력은 D가 화자 정체성·음조·내용과 같은 고수준 음향 정보를 학습하게 하며, G는 이러한 풍부한 특징을 역전파 신호로 받아 복원 품질을 향상시킨다. 두 번째 개선은 ‘두 단계(adversarial pre‑training)’ 학습 스케줄이다. 초기 100 epoch 동안은 기존 LSGAN 손실만 사용해 D와 G가 기본적인 균형을 이루도록 워밍업한다. 이후 300 epoch 동안에만 음향 회귀 손실을 활성화하고 학습률을 낮춘다(η_D = η_G = 5×10⁻⁵). 이렇게 하면 D가 먼저 고수준 진위 분류를 충분히 학습한 뒤, 세부 음향 특성 회귀에 집중하게 되어 G가 과도하게 뒤처지는 현상을 방지한다. 실험은 VCTK 코퍼스(80명 훈련, 14명 테스트)를 사용했으며, 훈련 시 각 청크에 네 가지 왜곡을 확률 p = 0.4로 독립 적용해 복합 왜곡 데이터를 생성한다. 왜곡 수준은 클리핑(30 %/40 %/50 %), 대역폭 축소(×2/×4/×8), 청크 삭제(최대 5개 청크, 길이는 두 정규분포 중 하나) 등으로 다양하게 설정했다. 세 모델을 비교했다. ① 기본 SEGAN (LSGAN 손실만) ② SEGAN‑Aco (음향 회귀 손실 전체 적용) ③ SEGAN‑PT Aco (워밍업 + 음향 회귀 손실). 객관적 평가는 Mel Cepstral Distortion(MCD), F0 RMSE, Voiced/Unvoiced 오류(UV)를 사용했으며, 주관적 평가는 26명의 청취자를 대상으로 화자 식별 정확도와 자연스러움(MOS)을 평가했다. 결과는 다음과 같다. SEGAN‑PT Aco가 MCD ≈ 4.1 dB, F0 RMSE ≈ 12 Hz, UV ≈ 3 %로 가장 낮은 오류를 기록했으며, 화자 식별 정확도는 78 %로 가장 높았다. 자연스러움 점수도 4.2/5에 근접해, 두 개선이 상호 보완적으로 작용함을 확인했다. 특히, 대역폭 감소와 위스퍼링이 화자 정체성 복원에 큰 영향을 주었고, 클리핑은 자연스러움 저하에 주된 요인으로 작용했다. 이 논문은 GAN 기반 음성 복원에 다중‑태스크 손실과 단계적 학습 스케줄을 결합함으로써, 기존 잡음 제거를 넘어 복합적인 신호 손상을 효과적으로 복원할 수 있음을 입증한다. 또한, 다양한 왜곡 유형별 성능 분석을 통해 실제 서비스에서 어떤 왜곡을 우선 보정해야 할지에 대한 실용적인 가이드라인을 제공한다. 향후 연구에서는 더 많은 왜곡 종류와 실시간 적용 가능성을 탐색하고, 음성 인식·합성 파이프라인과의 연계 효과를 검증할 여지가 있다.

일반화된 음성 복원을 위한 GAN 기반 스피치 엔헨스먼트

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기