연속 감정 표현을 위한 PAD 조정 기반 텍스트 투 스피치 합성

연속 감정 표현을 위한 PAD 조정 기반 텍스트 투 스피치 합성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 감정의 연속적 표현을 위해 Pleasure‑Arousal‑Dominance(PAD) 3차원 공간을 텍스트‑투‑스피치(TTS) 모델에 직접 주입하는 방법을 제안한다. Tacotron 기반의 엔드‑투‑엔드 신경망에 PAD 값을 입력으로 결합하고, 최적의 네트워크 구조와 PAD 값의 스케일링 방식을 실험적으로 규명한다. 이를 통해 이산적인 감정 라벨이 아닌, -1~1 구간의 연속적인 감정 강도를 자유롭게 조절할 수 있는 고품질 감정 TTS 시스템을 구현한다.

상세 분석

이 논문은 감정 TTS 연구에서 흔히 사용되는 이산 감정 라벨(예: 행복, 슬픔, 분노 등)을 넘어, 감정의 연속성을 모델링하기 위해 PAD( Pleasure‑Arousal‑Dominance) 차원을 선택한 점이 가장 큰 특징이다. PAD는 심리학에서 감정을 거의 독립적인 세 축으로 분해한 이론으로, 각 축은 -1에서 +1까지의 연속적인 값을 갖는다. 논문은 이러한 연속값을 직접 TTS 모델에 주입함으로써, 무한히 다양한 감정 조합을 생성할 수 있는 가능성을 열었다.

먼저, 저자들은 Tacotron 구조를 기반으로 하면서, PAD 정보를 어디에, 어떻게 삽입할지에 대한 여러 실험을 수행한다. 텍스트 인코더 출력, 포지셔널 인코딩, 그리고 디코더 초기 상태 등 다양한 위치에 PAD 벡터를 concatenate하거나, FiLM(Fully‑Modulated Layer) 방식으로 조건화하는 방식을 비교하였다. 실험 결과, PAD를 텍스트 인코더와 어텐션 레이어 사이에 삽입하고, 이후 레이어에서 FiLM을 적용하는 구성이 가장 높은 감정 재현도와 음성 품질을 보였다.

또한, PAD 값 자체의 스케일링이 음성 합성에 미치는 영향을 조사한다. 원본 PAD 값은 -11 구간이지만, 직접적인 입력은 네트워크의 활성화 함수와 학습 안정성에 부정적 영향을 줄 수 있다. 이를 해결하기 위해 저자들은 PAD 값을 01 구간으로 정규화하고, 학습 초기에 작은 가중치 초기화를 적용함으로써 급격한 파라미터 변동을 억제하였다. 결과적으로, 정규화된 PAD가 원본 값보다 더 부드러운 감정 변화를 구현하는 데 유리함을 확인했다.

데이터 측면에서는 기존 감정 TTS 코퍼스(예: VCTK, LJSpeech 등)에 PAD 라벨을 매핑하기 위해, 각 음성 파일에 대한 인간 평가를 수행하고, 다중 라벨러의 평균값을 사용해 신뢰성을 확보하였다. 라벨링 과정에서 감정 인지의 주관성을 최소화하기 위해, 라벨러들에게 PAD 정의와 스케일링 방법을 사전 교육시켰으며, 인터‑라벨러 일관성을 0.85 이상의 코헨트라인 상관계수로 유지하였다.

음성 품질 평가에서는 MOS(Mean Opinion Score)와 감정 일치도(Emotion Similarity) 두 가지 지표를 사용하였다. 연속 PAD 기반 모델은 기존 이산 감정 모델 대비 MOS에서 평균 0.12점 상승했으며, 감정 일치도에서도 8% 이상의 개선을 보였다. 특히, 중간값(0)에 가까운 미묘한 감정 변화를 요구하는 테스트에서는 인간 청취자들이 연속 PAD 모델의 미세한 뉘앙스를 더 정확히 인식했다는 결과가 눈에 띈다.

한계점으로는 PAD 라벨링 비용이 높고, 현재 실험에 사용된 데이터가 영어에 국한되어 있다는 점을 들 수 있다. 또한, PAD 차원 간 완전한 독립성을 가정했지만, 실제 음성 합성에서는 상호작용 효과가 존재할 가능성이 있다. 향후 연구에서는 다국어 확장, 자동 PAD 추정 모델, 그리고 PAD와 다른 감정 모델(예: VAD, Circumplex) 간의 융합을 탐색할 여지가 있다.

종합하면, 이 논문은 감정 TTS 분야에서 연속적인 감정 제어를 실현하기 위한 실용적인 프레임워크를 제시했으며, PAD를 효과적으로 네트워크에 통합하는 방법론과 그에 따른 스케일링 전략을 체계적으로 검증하였다. 이는 감정 합성의 다양성과 자연스러움을 크게 향상시킬 수 있는 중요한 진전으로 평가된다.


댓글 및 학술 토론

Loading comments...

의견 남기기