F5‑TTS 로마니아어 지원을 위한 경량 입력 어댑터
초록
본 논문은 기존 F5‑TTS 모델의 파라미터를 고정한 채, 로마니아어 문자 임베딩을 변환하는 경량 ConvNeXt 기반 입력 어댑터를 추가함으로써 로마니아어 TTS와 음성 클로닝을 구현한다. 20명의 원어민 청취자를 대상으로 음성 유사도, 발음·자연스러움, 로-영 코드스위칭 세 가지 주관 평가와 WER·스피커 유사도 등 객관 평가를 수행했으며, 어댑터 방식이 기존 모델의 다언어 능력을 크게 손상시키지 않으면서도 로마니아어 발화를 가능하게 함을 확인했다. 다만 영어 억양이 일부 남아 코드스위칭 품질에 제한이 있다.
상세 분석
F5‑TTS는 문자 수준 토큰을 직접 입력으로 받아 흐름 매칭(Flow‑Matching) 기반 디코더(DiT)와 ConvNeXt 텍스트 인코더를 결합한 비자율 생성 모델이다. 원 논문에서는 영어·중국어에 대한 학습만 수행했으며, 다중 화자 클로닝 능력이 뛰어난 것이 특징이다. 본 연구는 이러한 사전 학습된 백본을 그대로 유지(freeze)하고, 로마니아어 전용 입력 어댑터만을 학습한다는 점에서 두드러진다.
-
어댑터 설계
- 로마니아어 알파벳(특수 문자 포함)을 위한 새로운 임베딩 행렬 E 를 학습 가능하게 선언하고, 1‑D ConvNeXt 블록을 겹쳐 문자 임베딩 간의 시간적 의존성을 모델링한다.
- ConvNeXt는 기존 F5‑TTS 구현을 그대로 재사용함으로써 추가 파라미터 수를 최소화하고, “soft letter‑to‑sound” 변환 역할을 수행한다.
- 최종 출력 h_ctx = ConvNeXt(E(x)) 가 고정된 F5‑TTS 백본에 전달돼 멜 스펙트로그램을 생성한다. 이 구조는 전체 파이프라인을 ŷ = TTS(ConvNeXt(E(x))) 로 단순화한다.
-
코드스위칭 처리
- 입력 시 로마니아어와 영어 문자를 각각 마스크 m_R, m_E 로 구분하고, 로마니아어 부분에만 어댑터를 적용한다. 영어 부분은 기존 F5‑TTS의 임베딩을 그대로 사용한다.
- 두 임베딩을 합산(h_cs = h_R + h_E) 후 백본에 전달하지만, 언어 간 임베딩 정렬이 사전에 최적화되지 않아 전환 부위에서 부자연스러운 억양이 관찰된다.
-
학습 및 데이터
- 로마니아어 전용 SWARA Speech Corpus(21시간, 17명 화자)만을 사용해 어댑터를 40,500 스텝, 배치 16,384 오디오 프레임, 학습률 1e‑4 로 학습하였다. GPU는 A100 1대, 학습 시간 약 12시간.
- 전처리 없이 문자 수준 입력만 사용했으며, 기존 F5‑TTS와 동일한 흐름 매칭 손실을 그대로 적용했다.
-
평가 설계
- 주관 평가: 16명(논문에선 20명) 원어민 청취자를 대상으로 3가지 과제(스피커 유사도, 발음·자연스러움, 코드스위칭)에서 0‑100 점수(리커트) 부여. 비교 모델은 로마니아어 전용 VITS 기반 MMS‑TTS‑RON과 원본 F5‑TTS.
- 객관 평가: Whisper‑medium‑romanian 모델을 이용해 1,000개 샘플의 WER, MER, WIL, WIP을 측정하고, TitaNet‑L 기반 스피커 임베딩으로 코사인 유사도를 산출. 또한 전체 파라미터를 미세조정(FULL‑FT)한 버전과도 비교.
-
핵심 결과
- WER: 어댑터 모델(RO‑F5TTS) 3.62% → MMS‑TTS‑RON 5.27%보다 우수하지만, FULL‑FT 3.52%에 비해 약간 뒤처진다.
- 스피커 유사도: 어댑터 모델 평균 코사인 0.9013, FULL‑FT 0.7946으로 어댑터가 클로닝 능력을 더 잘 보존한다는 점을 보여준다.
- 주관 평가: 발음·자연스러움에서는 MMS‑TTS‑RON이 다소 높은 점수를 받았으며, 어댑터 모델은 영어 억양이 섞여 있어 일부 청취자에게 부정적으로 작용했다. 코드스위칭에서는 전환 부위의 부자연스러움이 지적됐지만, 전반적으로 가능성을 입증했다.
-
한계와 향후 과제
- 어댑터가 “soft” 변환만 수행하므로, 로마니아어 고유의 음운 규칙(예: 모음 조화, 자음군)까지 완전히 학습하지 못한다. 이는 발음 정확도와 코드스위칭 품질 저하로 이어진다.
- 언어 간 임베딩 정렬이 없기 때문에, 다언어 입력 시 내부 표현이 충돌한다. 향후 다중 언어 어댑터를 공동 학습하거나, 언어 식별 모듈을 삽입해 자동 전환을 구현하는 것이 필요하다.
- 현재는 21시간 데이터에만 의존했으므로, 더 큰 로마니아어 코퍼스(예: Common Voice 전체)와 혼합 학습을 통해 어댑터의 일반화 능력을 강화할 수 있다.
- 마지막으로, 어댑터 파라미터 수와 연산량을 최소화하면서도 더 깊은 컨텍스트 모델(예: Transformer‑based)로 교체하면, 복잡한 억양 변화를 더 잘 포착할 가능성이 있다.
결론: 본 연구는 기존 대규모 TTS 모델을 그대로 유지하면서도 새로운 언어를 빠르게 추가할 수 있는 경량 어댑터 전략을 제시한다. 어댑터만으로도 스피커 클로닝과 기본 발음 재현이 가능함을 입증했으며, 코드스위칭까지 어느 정도 지원한다. 다만 언어 고유의 음운 특성과 다언어 전환 품질을 개선하기 위해서는 어댑터 설계와 학습 데이터 확대가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기