노이즈가 섞인 억양표시가 TTS 성능에 미치는 영향
초록
본 연구는 일본어 TTS 시스템에서 억양표시와 질문표시와 같은 프로소디 정보를 포함한 언어학적 특징이 노이즈에 의해 왜곡될 때, 신경망 기반 음성 합성 및 WaveNet 보코더의 품질이 어떻게 변하는지를 조사한다. 수동으로 교정한 ‘오라클’ 특징을 사용한 최적 시스템과, 자동 추출된 OpenJTalk 특징, 그리고 의도적으로 오류를 삽입한 ‘손상된’ 특징을 사용한 여러 변형 시스템을 비교하였다. 객관적 지표(F0 RMSE, 상관계수, MCD)와 대규모 청취 실험(MOS, Turing 테스트) 결과, 테스트 단계에서 특징이 손상되면 성능이 크게 저하되지만, 학습 단계에 일정 비율의 노이즈를 포함시키면 정규화 효과가 나타나 손상된 테스트 특징에 대한 강인성이 향상됨을 확인하였다.
상세 분석
이 논문은 기존 파이프라인 기반 TTS 구조를 유지하면서 최신 신경망 모델인 WaveNet 보코더와 자동 회귀형 음향 모델(SAR, DAR)을 결합한 시스템을 구현하였다. 언어학적 특징은 크게 세 종류로 구분했는데, (1) OpenJTalk이 자동으로 추출한 389 차원 벡터, (2) KDDI 연구소에서 수동 교정한 265 차원 ‘오라클’ 벡터, (3) 오라클 벡터에 억양 유형(Acc Type)과 질문 플래그(Question Flag)에 무작위 잡음을 추가한 ‘손상된’ 벡터이다. 억양 유형은 -2~+2 범위의 정수 잡음을 50% 확률로, 질문 플래그는 30% 확률로 반전시켜 실제 라벨링 오류를 모방하였다.
학습 데이터는 27,999개의 발화(≈46.9시간)이며, 검증·테스트 세트는 각각 480개씩이다. 음향 특징은 WORLD와 SPTK를 이용해 60 차원 MGC, 25 차원 BAP, 255 레벨 양자화 F0 등을 추출하였다. SAR은 MGC와 V/UV를 가우시안 분포 파라미터로 예측하고, DAR은 양자화된 F0를 계층적 소프트맥스로 출력한다. 두 모델 모두 512-256-128 크기의 피드포워드·BiLSTM·UniLSTM 레이어를 사용했으며, WaveNet 보코더는 40개의 인과적 팽창 합성곱 층으로 16 kHz 샘플을 10‑bit µ‑law로 인코딩한다.
시스템 구성은 총 다섯 가지: (OJT) OpenJTalk 특징 전부 사용, (MOO) 오라클 특징 전부 사용, (MOC) 오라클 학습·오라클 테스트에 손상된 특징 적용, (MMC) 학습·테스트 모두 손상된 특징 사용, (MMO) 학습에 28.6%만 손상된 오라클을 섞고 테스트는 오라클 사용. 객관적 평가는 F0 RMSE, 상관계수, V/UV 오류율, 멜‑스펙트럼 왜곡(MCD)으로 수행했으며, 주관적 평가는 100명 대상 MOS와 이중 선택 Turing 테스트를 진행하였다.
결과는 두드러졌다. 오라클 전체 사용(MOO)이 모든 객관적 지표에서 최우수였으며, 테스트 단계에서 손상된 특징을 사용한 MOC은 성능이 급격히 저하되었다. 반면, 학습 단계에 손상된 특징을 일부 포함한 MMO는 MOO와 거의 동등한 성능을 보였고, 완전 손상된 MMC도 OJT보다 우수했다. 이는 손상된 라벨이 일정 비율 포함될 경우, 모델이 노이즈에 대한 내성을 학습하고 일반화 능력이 향상되는 ‘디노이징 자동인코더’와 유사한 정규화 효과를 제공한다는 가설을 뒷받침한다.
주관적 MOS 결과에서도 동일한 경향이 나타났다. 자연음성(µ‑law 변환 후) 평균 3.96점에 비해, MOO와 MMO는 3.623.63점으로 거의 차이가 없었으며, OJT와 MOC는 3.333.26점으로 낮았다. 특히, 테스트에 손상된 특징을 가진 시스템에서 학습에 소량의 손상 데이터를 투입한 경우(MMO) 품질이 향상되는 현상이 확인되었다. Turing 테스트에서는 청취자들이 합성 음성을 자연음성과 구분하기 어려워했으며, 이는 최신 WaveNet 보코더가 합성 품질을 크게 끌어올렸음을 의미한다.
이 연구는 (1) 프로소디 라벨링 정확도가 TTS 품질에 직접적인 영향을 미친다, (2) 테스트 단계 라벨 오류는 성능 저하의 주요 원인이다, (3) 학습 단계에 의도적 라벨 노이즈를 삽입하면 모델이 잡음에 강인해져 테스트 라벨 오류에 대한 복원력을 얻는다, (4) WaveNet 보코더와 자동 회귀형 음향 모델의 결합이 높은 자연스러움을 제공한다는 점을 강조한다. 향후 연구에서는 라벨 노이즈를 자동으로 감지·보정하는 메커니즘을 도입하거나, 다국어·다화자 환경에서 동일한 정규화 효과가 유지되는지를 검증할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기