텍스트와 음성 정렬을 강화한 고속 흐름 매칭 TTS ARCHI‑TTS
초록
ARCHI‑TTS는 흐름 매칭 기반 비자율(non‑autoregressive) 텍스트‑투‑스피치 모델로, 자체 지도 학습된 의미 정렬기와 인코더 출력 재사용 전략을 도입해 텍스트‑음성 정렬 문제와 반복 디노이징 과정의 고비용을 동시에 해결한다. 의미 정렬기는 텍스트와 음성 길이 불일치를 유연하게 맞추며, CTC 손실을 통해 텍스트와 음성 간 의미 일치를 강화한다. 인코더 출력을 여러 디노이징 단계에서 재사용함으로써 별도의 디스틸레이션 없이 추론 속도를 크게 높인다. 실험 결과 LibriSpeech‑PC test‑clean에서 1.98 % WER, SeedTTS 영어·중국어 테스트에서 각각 1.47 %·1.42 % WER를 기록하며, 기존 최첨단 모델들을 능가한다.
상세 분석
ARCHI‑TTS는 두 가지 핵심 과제—텍스트‑음성 정렬과 고비용의 반복 디노이징—를 동시에 해결하기 위해 설계된 비자율 TTS 프레임워크이다. 첫 번째로 제안된 의미 정렬기(semantic aligner)는 Transformer 기반 인코서와 ConvNeXt‑V2 블록을 결합해 텍스트 임베딩을 풍부한 의미 특징으로 변환한다. 여기서 중요한 설계는 ‘마스크 임베딩(m)’을 음성 길이에 맞게 복제해 시간 캔버스로 사용하고, 이를 텍스트 특징과 함께 Transformer에 입력함으로써 텍스트와 음성의 길이 불일치를 자연스럽게 매핑한다는 점이다. 이 방식은 기존의 강제적인 지속시간 예측이나 단순 패딩 방식보다 유연하며, 저‑토큰‑레이트 상황에서도 텍스트 토큰이 음성 프레임보다 짧을 때 발생하는 정렬 오류를 완화한다.
두 번째 핵심은 흐름 매칭(Flow Matching) 기반 디코더와 인코더 출력 재사용 전략이다. 조건부 흐름 매칭(CFM) 프레임워크는 optimal transport path를 따라 선형 보간된 노이즈와 데이터 사이의 연속적인 벡터 필드 vₜ(xₜ;θ)를 학습한다. ARCHI‑TTS는 DiT( Diffusion Transformer) 구조를 조건 인코더와 속도 디코더로 분리하고, 조건 인코더는 의미 정렬기 출력 z, 전역 스피커 임베딩 s, 그리고 마스크된 오디오 프롬프트 x_ref를 받아 숨은 상태 h를 생성한다. 속도 디코더는 이 h를 전역 조건으로 사용해 각 타임스텝 t에서의 흐름 속도 vₜ를 예측한다.
효율성을 높이기 위해 인코더 출력 h를 여러 디노이징 스텝에 걸쳐 재사용한다. 이는 인코더 연산이 전체 모델 연산에서 차지하는 비중이 크다는 점을 이용한 것으로, 인코더를 매 스텝마다 다시 실행하지 않고 저장된 h를 공유함으로써 추론 단계(NFE)당 연산량을 크게 감소시킨다. 이 방식은 별도의 디스틸레이션(teacher‑student) 없이도 추론 속도를 4배 이상 가속화한다는 실험 결과와 일치한다.
학습 목표는 기본 CFM 손실 외에 두 가지 보조 손실을 포함한다. 첫째, 방향 손실(L_DIR)은 코사인 유사도를 사용해 흐름 벡터의 방향성을 정규화한다. 둘째, CTC 손실(L_CTC)은 조건 인코더 중간 레이어의 출력에 적용돼 텍스트와 의미 정렬기의 출력 간의 정합성을 강화한다. 전체 손실은 L = L_CFM + L_DIR + η·L_CTC 형태이며, η=0.1으로 설정해 CTC 손실이 과도하게 주도되지 않도록 조절한다.
음성 표현은 고압축 저토큰 레이트 VAE(latent rate 12.5 Hz)로 대체돼, 기존 mel‑spectrogram 기반 파이프라인보다 시간 중복을 크게 줄인다. VAE는 KL 다이버전스로 정규화돼 인코더‑디코더를 하나의 통합된 구조로 만든다.
Zero‑shot TTS 설정에서는 참조 오디오 x_ref와 텍스트 y_ref를 이용해 스피커 임베딩 s와 의미 특징 z를 추출하고, 목표 텍스트 y_gen의 길이에 맞춰 지속시간을 선형 보정한다. 이후 ODE 솔버와 Classifier‑Free Guidance(CFG)를 적용해 최종 VAE latent을 생성하고, VAE 디코더를 통해 파형을 복원한다.
실험에서는 100k시간 규모의 다국어 Emilia 데이터셋을 8×RTX 5090 GPU에서 4일간 학습했다. LibriSpeech‑PC test‑clean에서 WER 1.98 %(SSIM 0.70)와 RTF 0.21을 달성했으며, 이는 300M~1.1B 파라미터 규모의 기존 최첨단 모델들을 크게 앞선다. SeedTTS 영어·중국어 테스트에서도 각각 1.47 %·1.42 % WER를 기록했고, MOS 평가에서도 3.53(NMOS)·3.48(SMOS)로 산업 수준 모델에 근접한 품질을 보였다.
요약하면, ARCHI‑TTS는 의미 정렬기와 인코더 재사용을 통한 효율적인 흐름 매칭 구조를 제시함으로써, 텍스트‑음성 정렬 정확도와 추론 속도 두 마리 토끼를 동시에 잡은 혁신적인 비자율 TTS 모델이다.
댓글 및 학술 토론
Loading comments...
의견 남기기