다중 가수 합창 합성을 위한 구조‑레벨 timbre 제어와 보컬 텍스처 모델링, Tutti
초록
Tutti는 구조‑인식 가수 프롬프트와 조건‑유도 VAE 기반 텍스처 학습을 결합해, 한 곡 안에서 구절·코러스 등 음악 구조에 따라 가수를 동적으로 배치하고, 합창 시 발생하는 공간 잔향·스펙트럼 융합 등 암묵적 텍스처를 재현한다. 실험 결과, 기존 솔로‑중심 SVS 모델에 비해 멀티‑싱어 스케줄링 정확도와 음향 현실감이 크게 향상되었다.
상세 분석
본 논문은 기존 Singing Voice Synthesis(SVS) 모델이 전역 timbre 를 고정된 조건으로만 제어하고, 다중 가수의 시간‑동적 배치를 지원하지 못한다는 한계를 정확히 짚어낸다. 이를 해결하기 위해 제안된 Tutti는 두 가지 핵심 모듈, ‘Structure‑Aware Singer Prompt’와 ‘Condition‑Guided VAE’를 중심으로 설계되었다. 첫 번째 모듈은 SongPrep을 이용해 곡을 구절·코러스 등 구조적 단위로 분할하고, 각 구간별 CAM++ 기반 가수 임베딩을 추출한다. 구절 구간에서는 임베딩 간 코사인 유사도가 낮은 경우 서로 다른 가수로 판단해 글로벌 가수 집합을 형성하고, 코러스·브릿지 구간에서는 다중 가수 매칭을 수행한다. 이렇게 얻어진 가수 집합은 Self‑Attention 기반 Adaptive Singer Prompt Fuser에 입력되어, 다중 임베딩을 가중 평균해 하나의 구조‑인식 timbre 조건 C_singer 로 압축한다. 이 과정은 가수 간 주도‑보조 관계를 동적으로 학습하게 하여, 솔로 파트와 합창 파트 사이의 전환을 부드럽게 만든다. 두 번째 모듈인 Condition‑Guided VAE는 기존 VAE가 콘텐츠·피치·timbre 정보를 모두 압축하는 문제를 해결한다. 저자는 VAE 인코더가 텍스처 정보를 학습하도록, 라벨(가사·구조·가수 프롬프트)과 무관한 latent z에 가우시안 노이즈를 가해 손상된 latent ˜z를 만든 뒤, 디코더에 명시적 조건을 제공하여 텍스처 전용 복원 과제를 부여한다. 이때 텍스처는 공간 잔향, 파트 간 스펙트럼 융합, 호흡감 등 인간 청감에 중요한 암묵적 요소를 포함한다. 학습 목표는 다중 해상도 STFT 손실, KL 발산, 그리고 GAN 기반 판별 손실을 결합해 고주파 디테일과 전반적 자연스러움을 동시에 확보한다. 전체 시스템은 Stable Audio 2.0 기반 VAE와 LLaMA‑style DiT(잠재 확산 트랜스포머) 백본을 결합한다. 조건들은 모두 latent 프레임 레이트에 맞춰 브로드캐스팅 후 채널 차원으로 concat되어 DiT에 입력되며, 로그‑정규분포 기반 timestep 샘플링으로 효율적인 확산 과정을 구현한다. 실험에서는 멀티‑싱어 스케줄링 정확도, 멀티‑스피커 BLEU‑like 지표, 그리고 주관적 청취 테스트에서 기존 DiffSinger·VISinger 대비 15~20% 이상의 향상을 보고한다. 특히, 텍스처 모듈을 제외한 베이스라인과 비교했을 때, 합창 구간의 공간감·음색 융합이 크게 개선돼 청취자에게 실제 합창에 가까운 인상을 제공한다. 전체적으로 Tutti는 구조‑레벨 timbre 제어와 텍스처 보완이라는 두 축을 통해, SVS 분야에서 ‘솔로‑패러다임’에서 ‘다중‑가수 패러다임’으로 전환하는 중요한 발걸음을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기