감정 조절 가능한 인간 같은 텍스트 음성 변환 CoCoEmo 활성화 스티어링
초록
CoCoEmo는 하이브리드 TTS 모델의 언어 모듈에 활성화 스티어링을 적용해, 단일 감정 라벨에 얽매이지 않고 혼합 감정과 텍스트와 감정이 불일치하는 상황까지 정밀하게 제어한다. 선형 분리 가능성이 높은 중후반 레이어와 어텐션 출력에 스티어링 벡터를 삽입함으로써, 감정 표현을 토큰 수준에서 조절하고, 다중 청취자 평가를 통해 혼합 감정 합성의 품질을 정량화한다.
상세 분석
본 논문은 최신 하이브리드 TTS 구조를 두 단계, 즉 텍스트‑투‑스피치 언어 모델(SLM)과 흐름‑매칭 디코더(Flow)로 분리하고, 감정 제어가 어느 단계에서 가장 효과적인지를 체계적으로 탐구한다. 저자들은 ‘교차 조건’ 실험을 설계해, 감정 레퍼런스를 SLM에만 적용했을 때와 Flow에만 적용했을 때의 음성 특성을 F0, 에너지, 발화 속도 등으로 비교하였다. 결과는 SLM‑주도 조건이 감정별 프로소디 차이를 크게 만들고, Flow‑주도 조건은 거의 동일한 프로소디를 유지한다는 점을 보여준다. 이는 감정적 변동성이 주로 토큰 레벨의 언어 모델에서 생성되며, Flow는 주로 음향 렌더링에 집중한다는 중요한 통찰을 제공한다.
다음 단계에서는 SLM 내부의 어느 레이어와 연산이 감정 정보를 가장 선형적으로 구분할 수 있는지를 ‘선형 프로브’ 방식으로 정량화한다. 레이어 1017(또는 모델에 따라 510) 사이의 중후반 레이어와 특히 어텐션 출력이 가장 높은 분류 정확도를 보였으며, 이는 감정 표현이 토큰의 컨텍스트 통합 과정에서 강화된다는 것을 의미한다. 이러한 레이어와 연산을 ‘스티어링 포인트’로 선정함으로써, 감정 방향 벡터를 효율적으로 추출하고 삽입할 수 있다.
스티어링 벡터 자체는 ‘중립‑감정 평균 차이’ 방식으로 정의된다. 동일 화자·동일 텍스트 쌍을 매칭해, 내용과 화자 변이를 최소화하고 순수한 감정 음향 변이를 캡처한다. 이렇게 얻은 벡터는 인퍼런스 시 원하는 강도만큼 스케일링해 레이어 활성에 더해진다. 혼합 감정 합성은 개별 감정 벡터를 가중합(p_e) 형태로 결합함으로써 구현되며, 가중치 비율을 조절해 감정 비율을 정량적으로 제어한다.
평가 측면에서는 다중 청취자 라벨링을 활용한 새로운 프레임워크를 제시한다. 청취자는 각 합성 음성에 대해 다중 감정 라벨을 자유롭게 선택하도록 하여, 전통적인 단일 라벨 정확도 대신 ‘감정 혼합도’와 ‘텍스트‑감정 불일치 정도’를 정량화한다. 실험 결과, 제안된 스티어링 방식은 기존 정적 감정 조건화 방식에 비해 감정 다양성, 자연스러움, 그리고 텍스트와 감정의 독립적 제어에서 유의미하게 우수함을 입증한다.
전체적으로 이 연구는 (1) 감정 표현이 SLM에 집중된다는 근본적인 이해, (2) 선형 분리 가능성이 높은 레이어·연산을 기반으로 한 효율적인 스티어링 벡터 추출 방법, (3) 혼합 감정 및 텍스트‑감정 불일치 상황을 정량적으로 평가할 수 있는 다중 청취자 프로토콜이라는 세 가지 주요 기여를 제공한다. 이러한 기여는 향후 인간과 유사한 감정 표현을 갖는 TTS 시스템 개발에 중요한 설계 원칙과 실용적 도구를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기