음성 합성의 기술과 도전 과제

본 논문은 영어 텍스트‑투‑스피치 시스템을 구현하기 위해 딥폰 합성 방식을 선택하고, 자동 딥폰 추출, 전이 부드럽게 연결, CMUdict 기반 발음 예측, 품사 태깅을 통한 동형이의어 구분, TD‑PSOLA와 USDS를 결합한 피치·길이·볼륨 조절 기법 등을 설계·구현하였다. 최종 시스템은 청취자 실험을 통해 intelligibility와 naturalness를 평가하였다.

저자: David Ferris

본 논문은 호주 뉴캐슬 대학교 전기공학과 학부생 프로젝트의 일환으로, 영어 텍스트‑투‑스피치(TTS) 시스템을 설계·구현하고 그 성능을 평가한다. 연구는 크게 네 부분으로 구성된다. 첫째, 인간 음성 생산 메커니즘과 기존 음성 합성 기술을 폭넓게 조사하고, 딥폰(concatenative diphone) 합성이 프로젝트 목표와 자원 제약에 가장 적합함을 판단한다. 딥폰은 두 인접 음소 사이의 전이 구간을 하나의 단위로 정의함으로써, 전체 음소 집합보다 적은 수의 단위만으로도 모든 단어를 재구성할 수 있다. 둘째, 딥폰 데이터베이스 구축을 자동화하는 파이프라인을 개발한다. 화자에게 사전 정의된 문장을 읽히면, 시스템이 음성 파형을 초기 자극, 지속, 침묵 복귀 단계로 자동 분리하고, 에너지와 스펙트럼 변화를 기반으로 딥폰 경계를 탐지한다. 이를 통해 한 명의 화자가 40분 이내에 필요한 모든 딥폰을 녹음·추출할 수 있다. 셋째, 텍스트 입력을 음성으로 변환하는 전 과정을 구현한다. CMU Pronouncing Dictionary(CMUdict)를 활용해 알려진 단어의 발음을 조회하고, 사전 학습된 최대우도 모델을 이용해 알파벳 기반 미지 단어의 발음을 예측한다. 예측 정확도는 훈련 집합의 76 % 이상이며, 이는 실용적인 수준이다. 또한 품사 태거를 설계해 문맥에 따라 동형이의어(예: “record”의 명사·동사형) 발음을 구분한다. 품사 판별 정확도는 76.8 %로, 실제 대화에서 의미에 따라 발음이 달라지는 경우를 효과적으로 처리한다. 음성 변조와 억양 재현을 위해 시간 영역 알고리즘인 TD‑PSOLA와 새로운 Unvoiced Speech Duration Shifting(USDS)를 결합한다. TD‑PSOLA는 유성 딥폰의 피치와 길이를 조절할 때 스펙트럼 왜곡을 최소화하지만, 무성 구간에서는 적용이 어려워 USDS를 도입해 무성 구간의 지속 시간을 비율적으로 조절한다. 두 알고리즘을 전이 지점에서 매끄럽게 전환함으로써 전체 음성의 자연스러운 억양과 스트레스를 재현한다. 텍스트 전처리 모듈은 토큰화, 숫자 읽기, 구두점에 따른 정지 삽입 등을 담당한다. 숫자 토큰은 영어식 읽기로 변환하고, 복합 구두점(콜론, 대시 등) 처리 로직을 포함해 실제 텍스트 입력에 대한 대응력을 높였다. 마지막으로, 시스템의 intelligibility와 naturalness를 평가하기 위해 다양한 청취자 테스트를 수행한다. Diagnostic Rhyme Test, Modified Rhyme Test, PAL‑PB‑50 등으로 이해도를 측정하고, Mean Opinion Score(MOS)와 선호도 테스트로 자연스러움을 정량화한다. 실험 결과, 제안된 딥폰 기반 시스템은 기존 제한 도메인 합성에 비해 높은 이해도와 비교적 자연스러운 억양을 제공했으며, 실시간 처리 속도도 만족스러운 수준이었다. 결론적으로, 이 연구는 딥폰 합성의 전통적 강점을 유지하면서 자동 데이터베이스 구축, 발음 예측, 품사 기반 동형이의어 해소, 그리고 시간 영역 변조 기법을 통합해 실용적인 영어 TTS 시스템을 구현한 점이 의의다. 향후 연구에서는 다중 화자 데이터베이스 구축, 딥러닝 기반 발음 모델 도입, 문장 수준 prosody 모델링 등을 통해 자연스러움을 더욱 향상시킬 수 있을 것으로 기대한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기