속삭임을 자연스러운 음성으로: GAN 기반 알라리날 음성 변환

본 논문은 성대 절제 후 발생하는 무성(whispered) 음성을 자연스러운 유성 음성으로 복원하는 새로운 방법을 제안한다. 기존의 음성 복원 기술은 주로 보코더와 머신러닝 기반 피치 예측을 결합한 두 단계 방식에 의존했으며, 이는 파라미터 추출 오류와 인공적인 피치 생성으로 인해 억양이 단조롭고 로봇음에 가까운 결과를 낳았다. 저자들은 이러한 한계를 극복하고자, 파형‑대‑파형(end‑to‑end) 변환을 수행하는 생성적 적대 신경망(GAN) 기반 모델을 설계하였다. 먼저, 기존 SEGAN( Speech Enhancement GAN ) 구조를 알라리날 음성 복원에 맞게 개조하였다. 위스퍼와 복원된 음성 사이에 미세한 시간·위상 차이가 존재하므로, L1 손실을 제거하고 대신 스펙트럼 도메인에서 절대 dB 차이를 최소화하는 정규화 손실을 도입하였다. 이는 샘플 간 정확한 정렬을 강제하지 않으면서도 전체 스펙트럼 형태를 유지하도록 돕는다. 생성기(G)와 판별기(D)는 각각 22층에서 11층으로 레이어 수를 절반으로 줄이고, 풀링 비율을 2→4로 확대해 연산 효율성을 높였다. 또한, 스킵 연결을 단순 연결이 아닌 학습 가능한 스칼라 가중치 α로 변환해 각 레이어의 특성 전달을 조절함으로써, 깊은 네트워크에서 발생할 수 있는 그래디언트 소실을 완화하였다. 판별기 입력에는 (자연, 위스퍼) 쌍 외에 (자연, 무작위 자연) 쌍을 추가해 내용 일관성과 인식 가능성을 동시에 학습하도록 설계하였다. 손실 함수는 LSGAN(Least‑Squares GAN) 형태를 사용했으며, TTUR(Two‑Time‑Scale Update Rule)을 적용해 D의 학습률을 G보다 4배 빠르게 설정함으로써 적대적 학습의 불균형을 방지하고 안정적인 수렴을 유도하였다. 실험 데이터는 6명의 영국어 화자(남성 4명, 여성 2명)에게서 수집한 CMU Arctic 코퍼스를 기반으로, 기존 RNN 기반 조음‑음성 합성 시스템을 통해 위스퍼 음성을 생성하고 이를 SEGAN의 입력으로 사용하였다. 각 화자별로 약 25분 분량의 음성을 확보했으며, 90%를 학습, 10%를 테스트에 할당하였다. 학습 시에는 16 384 샘플(≈1 초) 길이의 프레임을 50 ms 간격으로 겹쳐서 사용하였다. 평가에서는 Ahocoder를 이용해 복원된 음성의 기본 주파수(F0) 히스토그램을 분석하였다. 결과는 회귀 기반 RNN이 평균에 수렴하는 경향으로 피치 분산이 좁은 반면, SEGAN은 자연 음성에 가까운 넓은 분산을 보이며 보다 풍부한 억양을 생성함을 보여준다. 또한, 동일 위스퍼 입력에 서로 다른 랜덤 시드(z)를 제공하면 서로 다른 plausible 피치 곡선이 생성되는 것을 확인했으며, 이는 모델이 확률적 생성 능력을 갖추었음을 의미한다. 다만, 일부 구간에서 음성/무성 판단 오류가 발생했으며, 고주파 영역에서 컨볼루션 구조 특유의 잡음이 관찰되었다. 향후 연구에서는 판별기에 음성/무성 분류 보조 손실을 추가하거나, 멀티‑스케일 디코더를 도입해 고주파 복원을 개선할 계획이다. 청취 테스트 결과, SEGAN이 생성한 음성은 자연스러운 억양과 낮은 잡음 수준을 보였으며, 기존 RNN‑보코더 파이프라인보다 청취자에게 더 인간적인 음성으로 인식되었다. 그러나 아직 고주파 아티팩트와 일부 잘못된 voicing 판단이 남아 있어, 실용화 단계에서는 추가적인 정제 과정이 필요하다. 결론적으로, 본 연구는 위스퍼‑투‑보이스 변환을 위한 최초의 end‑to‑end GAN 기반 프레임워크를 제시함으로써, 보코더 의존성을 탈피하고 보다 자연스러운 피치와 억양을 생성할 수 있음을 실험적으로 입증하였다. 이는 알라리날 환자들의 음성 재활에 실질적인 도움이 될 뿐만 아니라, 파형 수준의 음성 변환 연구에 새로운 방향을 제시한다.

속삭임을 자연스러운 음성으로: GAN 기반 알라리날 음성 변환

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기