DSFlow: 듀얼 슈퍼비전과 스텝 인식 토큰으로 구현한 원스텝 흐름 매칭 TTS
초록
DSFlow는 흐름 매칭 기반 TTS 모델을 1~4 스텝으로 압축하기 위한 증류 프레임워크이다. 엔드포인트 매칭과 평균 속도 정렬을 결합한 듀얼 슈퍼비전으로 학습 안정성을 높이고, 연속시간 조건화를 경량화된 스텝‑인식 토큰으로 교체해 파라미터와 연산량을 크게 줄인다. 실험 결과, 기존 증류 방식보다 낮은 NFEs에서도 교사 수준의 음성 품질을 달성한다.
상세 분석
본 논문은 흐름 매칭(Flow Matching) 기반 텍스트‑투‑스피치(TTS) 모델이 다수의 ODE 통합 단계(NFEs)를 필요로 하는 문제를 해결하고자 한다. 기존 증류 방법은 최종 출력(엔드포인트)만을 교사와 맞추는 방식으로, 단계별 오차가 누적돼 학습 변동성이 크고 수렴이 불안정한 단점이 있었다. 또한, 연속시간(t) 임베딩을 활용한 adaLN‑Zero와 같은 모듈은 무한히 많은 시간값을 처리하도록 설계돼, 몇 개의 고정 스텝으로 압축된 학생 모델에 과도한 파라미터를 할당한다는 구조적 비효율을 낳는다.
DSFlow는 두 가지 핵심 아이디어로 이를 극복한다. 첫째, 듀얼 슈퍼비전이다. 엔드포인트 손실 L_endpoint와 평균 속도 정렬 손실 L_velocity를 가중합(α=0.7)하여 사용한다. 평균 속도는 교사의 ODE 솔버가 제공하는 시작·끝 상태를 선형 보간해 구한 deterministic estimate이며, Jacobian‑Vector Product(JVP) 없이 구현한다. 이렇게 하면 중간 단계에 대한 밀집된 신호가 제공돼 작은 예측 오차가 전체 경로에 미치는 영향을 억제하고, 학습 초기에 급격한 발산을 방지한다.
둘째, 스텝‑인식 토큰화이다. 연속시간 임베딩 대신, 각 고정 스텝(1, 2, 4)에 대응하는 소수의 학습 가능한 토큰을 입력 시퀀스 앞에 삽입한다. 이 토큰은 Transformer의 self‑attention을 통해 스텝‑특화 정보를 전달하므로, per‑layer의 adaLN‑Zero와 같은 복잡한 변조 네트워크를 제거한다. 파라미터 복잡도 분석에 따르면, 기존 방식은 O(L·D²) (L: 레이어 수, D: 차원) 파라미터가 필요하지만, 토큰화는 O(K·D) (K: 스텝 수)만으로 충분하다. 실제 구현에서는 시간 조건화 파라미터를 38 M에서 1.5 K로 축소했으며, 이는 메모리와 연산 비용을 크게 낮춘다.
또한, 논문은 약한 CFG(Classifier‑Free Guidance) 정규화를 도입한다. 증류 과정에서 교사의 가이던스가 학생에게 내재되지만, 완전한 무조건적 분기를 유지하도록 약한 정규화 항을 추가함으로써 추론 시 가벼운 CFG를 적용할 수 있게 했다. 이는 품질‑다양성 트레이드‑오프를 미세 조정하는 데 유용하다.
실험에서는 FastSpeech‑2, Glow‑TTS 등 다양한 흐름 기반 TTS 백본에 DSFlow를 적용했으며, 1‑step, 2‑step, 4‑step 설정 모두에서 MOS와 PESQ 점수가 교사 모델에 근접하거나 상회했다. 특히 1‑step에서는 기존 증류 대비 0.12 MOS 상승을 기록했고, 파라미터는 30 % 이상 감소했다. 추론 시간도 10배 이상 가속화돼 실시간 음성 합성에 충분한 수준을 보였다.
요약하면, DSFlow는 (1) 엔드포인트와 평균 속도 두 축을 결합한 듀얼 슈퍼비전으로 학습 안정성을 확보하고, (2) 스텝‑인식 토큰을 통해 구조적 파라미터 비효율을 해소함으로써, 고품질 TTS를 몇 단계의 추론만으로 구현한다는 혁신적인 증류 프레임워크를 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기