멀티파티 대화 음성 합성의 새로운 패러다임, MOSS‑TTSD
초록
MOSS‑TTSD는 대화 스크립트와 화자 태그를 입력으로 받아 60분까지의 다국어, 다중 화자 대화를 한 번에 생성하는 텍스트‑투‑스피치 모델이다. 강화된 장기 컨텍스트 처리, 제로샷 화자 클로닝, 그리고 강제 정렬 기반 평가 프레임워크 TTSD‑eval을 통해 기존 오픈소스·상용 모델을 능가한다.
상세 분석
본 논문은 기존 TTS가 단일 발화에 최적화된 반면, 대화형 음성 합성에서는 턴‑테이킹, 화자 전환 일관성, 장시간 안정성 등 복합적인 요구가 존재함을 지적한다. 이를 해결하기 위해 MOSS‑TTSD는 Qwen‑3‑8B‑base LLM을 기반으로 RVQ‑코드북의 상위 16계층만을 모델링함으로써 2 kbps, 12.5 Hz 프레임 레이트의 저비트레이트 디지털 오디오 토크나이저를 활용한다. 이 설계는 3600 초(1시간) 이상의 컨텍스트를 메모리 효율적으로 처리하게 하며, 다중 화자(최대 5명) 상황에서도 화자별 timbre와 prosody를 유지한다.
데이터 파이프라인은 원시 오디오 → 정규화 → 화자 다이어리제이션 → 멀티스피커 클립(최대 3600 s) → DNSMOS·언어·샘플레이트 메타데이터 라벨링 → MOSS Transcribe Diarize를 통한 엔드‑투‑엔드 ASR·화자 태깅으로 구성된다. 저품질·노이즈가 많은 구간은 MossFormer2 기반 디노이징을 적용하고, DNSMOS ≥ 2(고품질) 샘플만을 최종 학습에 사용한다. 화자 클로닝을 위해 동일 녹음 내 단일 화자 세그먼트를 추출해 reference audio 슬롯에 매핑하고, 합성 데이터는 동일 화자를 가진 클립을 교차 연결해 인공 대화 시나리오를 만든다.
학습은 3단계 커리큘럼으로 진행된다. 1단계에서는 단일·두 화자 데이터를 포함해 시퀀스 길이를 65 k 토큰으로 확대, 화자 태그와 reference audio 조건을 학습한다. 2단계에서는 고품질( DNSMOS ≥ 3, 24 kHz 이상) 데이터 비중을 높이고 학습률을 낮춰 음질을 향상시킨다. 3단계에서는 실제 멀티스피커 클립과 합성 대화를 혼합해 1‑5 화자 상황에서 턴‑스위칭 안정성과 화자 정확도를 최적화한다.
평가 측면에서 기존 cpWER·cpSIM은 화자 다이어리제이션 성능에 의존해 오류가 증폭되는 문제를 지적하고, 강제 정렬 기반 TTSD‑eval을 제안한다. MMS‑FA를 이용해 입력 스크립트와 생성 음성 간 단어 정렬을 수행하고, 화자 태그를 직접 매핑해 Speaker Attribution Accuracy (ACC)와 Speaker Similarity (SIM)를 계산한다. 또한 Whisper‑large‑v3를 사용해 WER을 측정해 intelligibility를 검증한다.
실험 결과, MOSS‑TTSD는 영어·중국어 모두에서 ACC 0.958‑0.963, SIM 0.73‑0.82 수준으로 오픈소스 베이스라인(VibeVoice, FireRedTTS 등)을 크게 앞선다. 상용 모델(Eleven V3 등) 대비도 비슷하거나 우수한 성능을 보이며, 특히 다중 화자 상황에서 화자 일관성이 눈에 띈다. 인간 청취자 평가에서도 Elo‑rating 기반으로 화자 구분 정확도, 음성 유사도, 리듬, 전반적 품질 모두에서 최고 점수를 획득했다.
핵심 기여는 (1) 60분 단일 패스 장기 대화 합성, (2) 제로샷 화자 클로닝을 지원하는 멀티파티 아키텍처, (3) 강제 정렬을 활용한 객관적 평가 프레임워크 TTSD‑eval이다. 이로써 대규모 팟캐스트, 동적 코멘터리, 오디오북 등 실제 서비스에 바로 적용 가능한 수준의 대화형 TTS 시스템을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기