대규모 음성 언어 모델을 활용한 노래 음성 합성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 1.7 B 파라미터 규모의 TTS 사전학습 음성 언어 모델(SLM)을 135 시간 규모의 합성 노래 데이터(ACE‑Opencpop)만으로 SVS(노래 음성 합성) 작업에 적응시키는 방법을 제시한다. 음악 점수와 음성 파형을 토큰화하고, 다중 스트림 언어 모델로 토큰을 예측한 뒤, 조건부 흐름 매칭을 통해 멜 스펙트로그램을 생성하고, 최종적으로 멜‑투‑웨이브 보코더로 파형을 복원한다. 실험 결과, 제안된 파이프라인은 기존 디스크리트 토큰 기반 SVS 모델과 동등하거나 유사한 성능을 달성한다.

상세 분석

이 연구는 크게 네 단계로 구성된 파이프라인을 설계하였다. 첫 번째 단계는 음악 점수와 목표 음성 파형을 각각 토큰화하는 과정이다. 점수 토큰은 음소, 피치, 지속시간을 50 FPS로 양자화하여 svs_lb 스트림에 삽입하고, 음성 토큰은 사전학습된 코덱 인코더와 SSL 모델을 이용해 각각 8개의 코덱 토큰과 1개의 SSL 토큰으로 표현한다. 이렇게 다중 스트림(코덱 + SSL) 토큰을 결합함으로써 모델이 고수준 의미와 저수준 음향 정보를 동시에 학습하도록 설계하였다.

두 번째 단계에서는 ESPNet‑SpeechLM 기반의 대규모 언어 모델을 다중 스트림 토큰 예측 과제로 fine‑tuning한다. 입력은 svs_lb와 스피커 프롬프트이며, 목표는 각 프레임에 대응하는 코덱 + SSL 토큰 시퀀스를 교차 엔트로피 손실로 최대화하는 것이다. 이때 원본 코덱 디코더를 그대로 사용하면 토큰 경계에서 발생하는 끊김 현상과 음성‑특화 코덱이 노래를 충분히 재현하지 못하는 한계가 드러났다.

이를 보완하기 위해 세 번째 단계에서 조건부 흐름 매칭(Conditional Flow Matching, CFM)을 도입하였다. 흐름 모델은 표준 정규분포(소스)에서 목표 멜 스펙트로그램(타깃)으로 변환하는 연속 시간 속도장을 학습한다. 여기서 코덱 토큰과 피치 정보를 조건으로 제공함으로써 변환 과정을 음악적 일관성에 맞게 제어한다. 학습 목표는 경로상의 각 시점에서 실제 속도와 모델이 예측한 속도 사이의 L2 오차를 최소화하는 것이며, 추론 시 ODE 솔버를 통해 샘플을 전진시켜 멜 스펙트로그램을 복원한다.

마지막 단계는 멜‑투‑웨이브 보코더를 이용해 최종 파형을 생성한다. 보코더는 코덱의 STFT 파라미터와 일치하도록 설계되어, 흐름 매칭 단계에서 생성된 멜와 코덱 사이의 불일치를 최소화한다.

실험에서는 ACE‑Opencpop이라는 135 시간 규모의 합성 노래 데이터셋을 사용했으며, F0_RMSE, F0_CORR, MCD, PER, SingMOS, Sheet‑SSQA 등 다양한 객관·주관 지표를 측정하였다. 결과는 기존 디스크리트 SVS 모델인 XiaoiceSing, TokSing과 비교했을 때 피치 정확도와 전반적인 음질에서 경쟁력을 보였으며, 특히 멜 기반 흐름 매칭이 코덱 기반보다 학습이 용이하고 성능 향상이 크게 나타났다. Ablation 연구에서는 흐름 매칭에 피치를 추가로 조건화한 경우(FLOW2)와 단순히 코덱만 사용한 경우(FLOW1)의 차이를 분석했으며, 피치 조건이 미세하게 F0_CORR을 개선함을 확인했다.

전체적으로 이 논문은 대규모 사전학습 SLM이 제한된 SVS 데이터에서도 효과적으로 전이될 수 있음을 실증하고, 토큰‑기반 디코딩의 한계를 흐름 매칭과 보코더 결합으로 극복하는 새로운 설계 패턴을 제시한다. 향후 연구에서는 더 다양한 음악적 표현(다중 트랙, 다중 화자)과 실제 녹음 기반 데이터에 대한 확장 가능성을 탐색할 여지가 있다.

대규모 음성 언어 모델을 활용한 노래 음성 합성

초록

상세 분석

댓글 및 학술 토론

의견 남기기