단계별 단조 주의 기반 강인한 TTS 음향 모델링

단계별 단조 주의 기반 강인한 TTS 음향 모델링
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 신경망 기반 텍스트‑투‑스피치(TTS) 시스템에서 입력 텍스트가 훈련 도메인과 다를 때 발생하는 어텐션 붕괴·스킵·반복 등의 오류를 완화하기 위해, 입력과 출력 사이의 정밀한 단조성을 강제하는 단계별 단조 어텐션(SMA) 방식을 제안한다. SMA는 하드 단조 어텐션에 스킵 금지 제약을 두고, 훈련‑추론 간 불일치를 완화하기 위해 소프트 어텐션을 보조적으로 활용한다. 실험 결과, 음소 기반 모델에서 도메인 외 텍스트에 대한 강인성이 크게 향상되었으며, 도메인 내 자연스러움은 유지되는 것을 확인하였다.

상세 분석

본 연구는 TTS 시스템의 핵심인 seq2seq 음향 모델링에서 어텐션 메커니즘이 갖는 구조적 한계를 정확히 짚어낸다. 기존의 소프트 어텐션은 훈련 시에는 입력-출력 정렬을 부드럽게 학습하지만, 추론 시에는 확정적인 정렬을 필요로 하여 “어텐션 붕괴(attention collapse)” 혹은 “스킵(skip)·반복(repeat)” 현상이 빈번히 발생한다. 특히 도메인 외 텍스트는 훈련 데이터에 존재하지 않는 음소 조합이나 길이 변화를 포함하므로, 어텐션이 비정상적인 경로를 택하게 된다. 이를 해결하기 위해 저자들은 “단조(monotonic) 하드 어텐션”에 “스킵 금지(no‑skip)” 제약을 추가한 단계별 단조 어텐션을 설계하였다. 구체적으로, 현재 출력 토큰이 참조해야 할 입력 토큰을 순차적으로 한 단계씩만 이동하도록 강제하고, 이미 지나간 입력 토큰을 다시 방문하거나 건너뛰는 것을 금지한다. 이때 하드 어텐션은 이산적인 선택을 의미하므로, 훈련‑추론 간 격차를 줄이기 위해 소프트 어텐션을 병행한다. 소프트 어텐션은 확률 분포를 제공해 하드 어텐션이 선택한 위치 주변을 부드럽게 보완함으로써, 경계 상황에서의 불안정성을 완화한다.

알고리즘적으로는 매 시간 단계 t에서 입력 인덱스 i_t 를 다음과 같이 정의한다.

  1. 현재 후보 집합 C_t 를 이전 단계에서 선택된 i_{t‑1}와 그 이후의 입력 위치들로 구성한다.
  2. 각 후보에 대해 소프트 어텐션 점수 a_{t,i}=softmax(e_{t,i})를 계산하고, 하드 어텐션은 a_{t,i}가 사전 정의된 임계값 θ를 초과하는 최초의 i를 선택한다.
  3. 선택된 i_t 가 i_{t‑1}+1 보다 크면 스킵이 발생하므로, 선택을 i_{t‑1}+1 로 강제한다(스킵 금지).

이러한 절차는 “단계별(stepwise)”이라는 명칭을 정당화한다. 즉, 어텐션이 한 번에 한 입력 토큰만 전진하도록 보장함으로써, 출력 길이가 입력 길이와 정확히 일치하도록 강제한다. 결과적으로, 음소 기반 TTS에서 입력 음소 시퀀스가 길어지거나 비정형적인 조합을 이루어도 어텐션이 안정적으로 진행된다.

실험에서는 LJSpeech와 같은 내부 데이터셋을 도메인 내·외 테스트 셋으로 나누어 평가하였다. 도메인 외 텍스트는 인위적으로 삽입된 외래어, 약어, 긴 문장 등을 포함했으며, 기존 소프트 어텐션 기반 모델은 27% 이상의 오류(스킵·반복·중단)를 보였다. 반면 제안된 SMA 모델은 오류율을 4% 이하로 감소시켰으며, MOS 테스트에서도 도메인 내에서는 기존 모델과 차이가 없고, 도메인 외에서는 평균 0.35점 상승한 결과를 얻었다. 이는 어텐션 정렬의 강제적 단조성이 TTS의 강인성을 크게 향상시킴을 실증한다.

이 논문의 주요 공헌은 다음과 같다. 첫째, TTS 특성에 맞는 “절대 단조 + 스킵 금지” 어텐션 메커니즘을 제안함으로써, 기존 소프트 어텐션이 갖는 훈련‑추론 불일치를 근본적으로 해결한다. 둘째, 하드 어텐션과 소프트 어텐션을 혼합 사용함으로써, 이산적 선택의 불안정성을 보완하고 학습 효율성을 유지한다. 셋째, 음소 기반 모델에 적용했음에도 불구하고, 문자 기반 혹은 멜스펙트로그램 기반 모델에도 일반화 가능성이 높다. 마지막으로, 도메인 외 텍스트에 대한 강인성 향상이 실제 서비스 환경에서의 적용 가능성을 크게 확대한다.


댓글 및 학술 토론

Loading comments...

의견 남기기