음성 합성에서 억양 유사성 평가

음성 합성에서 억양 유사성 평가
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 억양 유사성을 평가하기 위한 주관적 청취 테스트와 객관적 측정 방법을 개선한다. XAB 청취 테스트에 텍스트 제공, 차이 강조, 청취자 신뢰도 검증을 추가해 적은 청취자 수로도 통계적 유의성을 확보한다. 객관적으로는 모음 포먼트 거리와 음성 후방 확률 그래프(PPG) 기반 발음 거리 등을 제안하고, 기존의 억양·화자 임베딩 코사인 유사도, MCD, WER 등과 비교한다. 실험 결과, 제안된 주관·객관 지표가 억양이 잘 반영된 평가에 효과적이며, WER은 저대표성 억양에 편향이 있음을 확인한다.

상세 분석

이 연구는 억양 유사성 평가라는 비교적 미개척 영역에 두 가지 축을 두고 접근한다. 첫 번째는 청취자 기반 주관 평가이다. 기존 XAB 테스트는 ‘어떤 후보 음성이 기준 음성과 억양이 더 유사한가’를 묻는 단순 구조였지만, 청취자들이 억양 차이를 정확히 인지하기 어렵다는 한계가 있었다. 이를 보완하기 위해 세 가지 요소를 도입했다. 첫째, 모든 청취 시험에 텍스트 전사를 제공함으로써 청취자가 발음 차이에 집중하도록 유도한다. 둘째, 청취자가 인지한 억양 차이를 텍스트 상에서 직접 하이라이트하도록 하여, 차이점이 구체적으로 어디에 있는지 기록하게 한다. 셋째, 정답 확인 질문과 억양 식별 질문을 포함한 스크리닝 절차를 두어 부정확하거나 무관심한 응답을 걸러낸다. 이러한 설계는 통계적 검정에서 유의미한 차이를 10~15명의 유효 청취자만으로도 도출할 수 있게 해 비용 효율성을 크게 높였다.

두 번째는 객관적 평가 지표이다. 억양은 주로 모음의 발음 특성에 의해 구분되므로, 논문은 모음 포먼트(F1, F2) 추출 후 RMSE를 계산하는 ‘VF RMSE’ 지표를 제안한다. 포먼트는 음성학적으로 해석 가능하고, 억양 변이를 정량화하는 데 직관적이다. 또한, 음성 후방 확률 그래프(PPG)를 활용해 발음 차이를 측정한다. PPG는 음소 수준의 확률 분포를 제공하므로, DTW 정렬 후 코사인 거리 혹은 Jensen‑Shannon 거리 평균을 발음 거리로 정의한다. 이와 더불어 기존에 널리 쓰이는 억양·화자 임베딩 코사인 유사도(GenAID, CommonAccent, WavLM‑SV)와 Mel Cepstral Distortion(MCD), 그리고 Whisper 기반 WER/CER, UTMOS 등도 함께 실험한다.

실험에서는 Edinburgh 억양을 기준으로 복제 합성(copysyn)과 XTTS, 그리고 GA 데이터(LJ Speech)로 과도하게 파인튜닝한 ‘corrupt’ 모델들을 평가했다. 주관 실험 결과, 텍스트 제공(+trans)만으로도 copysyn이 xtts보다 유의하게 선호되었으며, 차이 강조(+highlight)를 추가하면 통계적 유의성이 더욱 강화되었다. 반면 순수 XAB 테스트는 50% 부근에 머물러 차이를 구분하지 못했다. 객관 지표 측면에서는 VF RMSE와 PPG 기반 거리(PPG CosSim, PPG JS)가 가설 순위와 높은 Spearman 상관(>0.9)을 보였으며, 억양 임베딩 코사인 유사도도 유의미하게 연관되었다. 반면 WER은 억양이 다를수록 편향이 커져, 저대표성 억양을 정확히 평가하지 못한다는 한계를 확인했다.

이러한 결과는 억양 평가에 있어 텍스트 기반 보조 정보와 청취자 스크리닝이 필수적이며, 발음 중심의 객관 지표가 억양 차이를 정량화하는 데 효과적임을 시사한다. 향후 연구에서는 다국어·다억양 상황에 대한 확장과, 인간 청취자와 자동 지표 간의 정밀한 매핑 모델을 개발하는 방향이 제시된다.


댓글 및 학술 토론

Loading comments...

의견 남기기