DiffRhythm 2 블록 흐름 매칭 기반 고품질 노래 생성

DiffRhythm 2 블록 흐름 매칭 기반 고품질 노래 생성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DiffRhythm 2는 블록 흐름 매칭과 반자동 회귀 구조를 결합해 가사와 보컬의 정밀 정렬을 구현하고, 5 Hz 저프레임 음악 VAE로 긴 시퀀스를 효율적으로 압축한다. 또한 교차‑페어 선호 최적화를 도입해 다중 인간 선호를 반영한 RLHF를 수행하면서 모델 병합에 따른 성능 저하를 최소화한다. 실험 결과 210 초 길이의 완전한 노래를 고속으로 생성하며 기존 오픈소스 모델을 주관·객관 평가 모두에서 앞선다.

상세 분석

DiffRhythm 2는 기존 비자동 회귀(NAR) 기반 노래 생성 모델이 직면한 두 가지 핵심 한계—가사‑보컬 정렬과 다중 선호 RLHF—를 동시에 해결하기 위해 새로운 아키텍처와 학습 전략을 제시한다. 첫 번째 혁신은 ‘블록 흐름 매칭(Block Flow Matching)’이다. 전체 라틴시퀀스를 고정 길이 블록(b)으로 분할하고, 각 블록을 독립적인 비자동 회귀 흐름 매칭으로 생성한다. 블록 간 의존성은 자동 회귀 방식으로 유지해 이전 블록의 정보를 완전하게 활용한다. 이 설계는 블록 내부에서 양방향 컨텍스트를 제공하면서도 전체 시퀀스 길이에 비례하는 복잡도 증가를 억제한다. 특히, 흐름 매칭 손실 L_fm을 블록별로 정의하고, 노이즈와 클린 라티스 사이의 선형 경로를 직접 회귀함으로써 기존 점수 매칭 대비 수렴 속도와 안정성을 크게 향상시킨다.

두 번째 핵심은 ‘스톡캐스틱 블록 REP A 손실’이다. 블록 흐름 매칭 과정에서 클린 라티스와 노이즈 라티스를 동시에 입력으로 사용해야 하는데, 이를 구분하기 위해 타임스텝을 활용한다. 스타일 프롬프트와 가사는 고정 타임스텝 -1, 클린 시퀀스는 1, 노이즈 시퀀스는 U


댓글 및 학술 토론

Loading comments...

의견 남기기