연속 사인파 모델 기반 RNN 음성 합성: 자연스러운 음성 구현을 위한 새로운 접근

연속 사인파 모델 기반 RNN 음성 합성: 자연스러운 음성 구현을 위한 새로운 접근
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

연속 F0와 최대 유성 주파수(MVF)를 이용한 연속 사인파 모델(CSM)을 기존의 STRAIGHT 수준으로 개선한 뒤, 양방향 LSTM(Bi‑LSTM)으로 contF0, MVF, MGC를 동시에 예측한다. 예측된 contF0는 시간 왜곡 기반 후처리로 비유성 구간의 불필요한 유성 성분을 제거해 품질을 높인다. 객관적 지표와 주관적 청취 테스트 결과, 제안 시스템은 WORLD 기반 RNN 모델과 견줄 만한 자연스러움과 명료성을 보였다.

상세 분석

본 논문은 통계적 파라메트릭 음성 합성 분야에서 지속적인 F0(continuous F0, 이하 contF0)와 최대 유성 주파수(Maximum Voiced Frequency, MVF)를 결합한 연속 사인파 모델(Continuous Sinusoidal Model, CSM)을 기반으로, 시퀀스‑투‑시퀀스(sequence‑to‑sequence) 학습을 수행하는 RNN 구조를 탐구한다. 기존 STRAIGHT와 WORLD와 같은 고품질 보코더는 복잡한 신호 처리 파이프라인을 필요로 하지만, CSM은 사인파 합성에 필요한 최소한의 파라미터( contF0, MVF, MGC)만을 사용해 효율적인 파라미터화가 가능하다.

연구진은 양방향 LSTM(Bi‑LSTM)을 선택한 이유를 두 가지로 제시한다. 첫째, Bi‑LSTM은 과거와 미래 컨텍스트를 동시에 활용해 시간적 연속성을 보존한다는 점에서 contF0와 MVF와 같은 연속적인 파라미터 추정에 유리하다. 둘째, LSTM의 게이트 구조는 장기 의존성을 학습하면서도 기울기 소실 문제를 완화한다는 점이다. 입력 특징으로는 전통적인 음성 전처리 단계에서 추출한 스펙트럼 계수와 포즈 정보가 사용되었으며, 출력은 각각 contF0, MVF, 그리고 Mel‑Generalized Cepstrum(MGC)이다.

contF0 추정 후 적용된 시간 왜곡(time‑warping) 기반 후처리는 특히 비유성 구간에서 발생하는 불필요한 유성 성분을 효과적으로 억제한다. 구체적으로, 원본 contF0 곡선을 음성 구간과 비음성 구간에 따라 비선형적으로 재매핑함으로써, 비유성 구간의 F0 값이 0에 가깝게 수렴하도록 설계되었다. 이는 기존 방법에서 종종 발생하는 “voiced leakage” 현상을 크게 감소시킨다.

실험에서는 객관적 지표인 F0 RMSE, V/UV 오류율, 그리고 MCD(Mel‑Cepstral Distortion)를 측정했으며, 제안 시스템은 WORLD 기반 RNN 모델 대비 유사하거나 약간 우수한 성능을 보였다. 주관적 청취 테스트에서는 5점 척도 MOS와 ABX 테스트를 통해 자연스러움과 명료성에서 통계적으로 유의미한 차이를 보이지 않았으며, 일부 청취자에게는 CSM 기반 합성이 더 선호되는 경향이 관찰되었다.

전체적으로 이 연구는 복잡한 보코더 구조를 단순화하면서도 고품질 음성 합성을 달성할 수 있음을 입증한다. 특히, contF0와 MVF를 연속적인 파라미터로 다루는 CSM은 RNN 기반 시퀀스 모델링과 잘 결합되어, 향후 딥러닝 기반 TTS 시스템에서 경량화와 실시간 처리에 유리한 설계 방향을 제시한다. 향후 연구에서는 Transformer 기반 모델과의 비교, 다국어 확장, 그리고 음성 스타일 제어를 위한 추가 파라미터 도입이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기