스크립트 우선 다국어 음성 합성 및 적응형 로케일 해석

초록

본 논문은 코드스위칭 TTS의 핵심 문제인 급격한 언어 전환과 스크립트 차이를 해결하기 위해, 입력 텍스트를 유니코드 스크립트 기준으로 분할하고, 각 구간에 적응형 언어·로케일 식별을 적용하는 SFMS‑ALR 프레임워크를 제안한다. 감정 기반 프로소디 정규화를 통해 언어 간 억양을 매끄럽게 연결하고, 단일 SSML로 통합해 기존 구글·애플·아마존 등 상용 TTS 엔진에 바로 적용할 수 있다. 기존 엔드‑투‑엔드 다국어 모델과 비교해 재학습 없이 배포가 가능하고, 해석 가능성과 유연성을 강조한다.

상세 요약

SFMS‑ALR은 “스크립트‑퍼스트” 접근법을 채택함으로써 다국어 텍스트 처리의 첫 단계에서 언어 구분을 단순화한다. 유니코드 블록을 기준으로 텍스트를 세분화하면, 라틴, 한자, 히라가나·가타카나 등 서로 다른 문자 체계가 혼재된 문장을 자동으로 구획할 수 있다. 이때 스크립트 경계가 곧 언어 경계가 되는 경우가 많지만, 동일 스크립트 내에서도 다중 언어가 존재할 수 있다(예: 라틴 문자 내 영어·스페인어). 이를 보완하기 위해 논문은 “Adaptive Locale Resolution”(ALR) 모듈을 도입한다. ALR은 사전 훈련된 경량 LID 모델과 사전 정의된 로케일 매핑 테이블을 결합해, 각 구간에 가장 확률이 높은 언어·지역 코드를 할당한다. 특히, 문맥 기반 가중치를 적용해 앞뒤 구간의 언어 일관성을 고려함으로써, 짧은 코드‑스위치 현상에서도 안정적인 식별이 가능하도록 설계되었다.

프로소디 정규화는 감정 인식(감성 분석) 결과를 활용한다. 감정 스코어가 높은 구간에서는 억양·속도·볼륨을 감정에 맞게 조정하고, 언어 전환 시에는 이 조정값을 부드럽게 보간한다. 이렇게 하면 영어‑한국어 전환 시 “excited”와 같은 감정이 두 언어 모두에 일관되게 전달된다. SSML 생성 단계에서는 각 구간마다 <lang> 혹은 <voice> 태그를 삽입하고, 필요 시 <prosody> 태그로 감정 기반 파라미터를 명시한다. 최종적으로 하나의 SSML 문서를 생성해 기존 TTS 엔진에 전달하면, 엔진은 제공된 음성·언어 정보를 기반으로 단일 요청에 다국어 음성을 합성한다.

핵심 장점은 재학습이 필요 없다는 점이다. 기존 엔진‑별 음성 모델을 그대로 활용하면서도, 스크립트·언어 식별과 프로소디 조정을 프런트엔드에서 수행한다. 따라서 엔진 교체, 새로운 음성 추가, 혹은 로케일 확장이 발생해도 프레임워크만 업데이트하면 된다. 또한, 모듈식 설계 덕분에 LID, 감성 분석, SSML 변환 등 각 구성 요소를 독립적으로 교체·개선할 수 있다.

실험에서는 데이터‑드리븐 파이프라인인 Unicom과 Mask‑LID와 비교하였다. 정량적 지표인 Word Error Rate(WER)와 Mean Opinion Score(MOS)에서 SFMS‑ALR은 특히 언어 전환 지점에서의 자연스러움(Naturalness)과 이해도(Intelligibility)에서 우수한 성능을 보였다. 정성적 사용자 설문에서도 “언어가 섞여도 흐름이 끊기지 않는다”는 긍정적 피드백이 다수였으며, 엔진 독립성 측면에서도 “다양한 상용 엔진을 자유롭게 선택할 수 있다”는 점이 큰 장점으로 평가되었다.

한계점으로는 스크립트가 동일하지만 언어가 다른 경우(예: 라틴 문자 내 영어·프랑스어)에서 LID 정확도가 다소 떨어지는 점을 들 수 있다. 또한, 감성 분석이 텍스트 기반이므로 실제 발화의 억양과 완전히 일치하지 않을 수 있다. 향후 연구에서는 멀티모달 감성 인식과 더 정교한 컨텍스트 기반 LID를 결합해 이러한 문제를 보완하고자 한다.

초록

상세 요약

📜 논문 원문 (영문)