딥러닝 기반 노래 합성에 자연스러운 피치 변동을 부여하는 GMMN 포스트필터와 신경형 더블 트래킹

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 DNN 기반 노래 합성의 결정론적 한계를 극복하기 위해, 자연스러운 피치 변동을 모델링한 생성 모멘트 매칭 네트워크(GMMN) 포스트필터를 제안한다. 합성된 피치 컨투어의 변조 스펙트럼을 GMMN으로 무작위 샘플링해 인터-어터런스 변동을 부여하고, 이를 두 번째 음성에 적용해 자연스러운 더블 트래킹(Neural Double‑Tracking, NDT)을 구현한다. 실험 결과, 제안 방법은 음질을 유지하면서 인지 가능한 피치 변동을 제공하며, NDT가 기존 인공 더블 트래킹보다 인간이 만든 더블 트래킹에 더 가깝다는 것을 확인하였다.

상세 분석

이 연구는 DNN 기반 노래 합성 시스템이 악보 하나당 하나의 파형만을 생성하는 결정론적 특성 때문에 인간 가수의 자연스러운 인터‑어터런스 피치 변동을 재현하지 못한다는 문제점을 정확히 짚어낸다. 이를 해결하기 위해 저자는 피치 컨투어의 변조 스펙트럼(modulation spectrum, MS)을 추출하고, 이 MS의 자연스러운 변동성을 학습하기 위해 생성 모멘트 매칭 네트워크(GMMN)를 활용한다. GMMN은 최대 평균 차이(MMD)를 최소화하는 방식으로 두 분포 간의 모멘트 차이를 줄이며, GAN이나 VAE와 달리 학습이 안정적이고 구현이 간단하다는 장점을 가진다.

구체적으로, 합성된 연속 F0(로그 스케일)에서 STFT를 적용해 세그먼트별 MS를 구하고, 각 세그먼트에 10차원의 균등 잡음 벡터와 함께 1차 모듈레이션 주파수 성분을 입력으로 하는 조건부 GMMN을 학습한다. 학습 과정에서 원본 자연 피치의 MS와 합성 피치의 MS 사이의 CMMD 손실을 최소화함으로써, GMMN은 “자연스러운” MS 분포를 모델링한다. 합성 단계에서는 학습된 GMMN에 무작위 잡음 벡터를 넣어 새로운 MS를 샘플링하고, 이를 원본 MS와 결합해 역 STFT를 수행함으로써 변조된 피치 컨투어를 생성한다.

이 포스트필터는 두 가지 주요 응용을 갖는다. 첫째, 단일 합성 음성에 자연스러운 피치 변동을 부여해 인터‑어터런스 효과를 제공한다. 둘째, 변조된 피치를 사용해 두 번째 음성을 별도로 합성하고, 시간 차를 두고 믹싱함으로써 신경형 더블 트래킹(NDT)을 구현한다. 기존 인공 더블 트래킹(ADT)은 딜레이와 코러스 효과를 이용해 피치를 인위적으로 변조하지만, 위상 차이와 톤 왜곡을 초래한다. 반면 NDT는 자연 분포를 따르는 변동을 적용하므로, 청취자에게 더 자연스럽고 풍부한 레이어링을 제공한다.

실험에서는 일본어 노래 58곡을 사용해 DNN 기반 합성 모델을 학습하고, 별도 28곡을 이용해 GMMN 포스트필터를 훈련하였다. 평가에서는 1) 인터‑어터런스 피치 차이를 인지하는 비율, 2) 음질 MOS, 3) 더블 트래킹 청취 테스트를 수행했다. 결과는 GMMN 포스트필터가 피치 변동을 인지 가능하게 만들면서도 MOS 점수는 기존 MSE 기반 합성과 거의 차이가 없음을 보여준다. 또한 NDT는 ADT보다 자연스러운 더블 트래킹에 가까운 평가 점수를 얻어, 제안 방법이 실제 음악 제작에 적용 가능함을 입증한다.

한계점으로는 현재 피치 변동만을 다루고 있어 음색이나 다이내믹스와 같은 다른 표현 요소는 고려되지 않았으며, GMMN의 세그먼트 길이와 잡음 차원 선택이 결과에 미치는 영향에 대한 정량적 분석이 부족하다. 향후 연구에서는 다중 음성 파라미터(예: 스펙트럼, 포먼트) 전체에 대한 변동 모델링, 그리고 인간 가수의 실제 녹음에 NDT를 적용하는 방안을 탐색할 수 있다.

딥러닝 기반 노래 합성에 자연스러운 피치 변동을 부여하는 GMMN 포스트필터와 신경형 더블 트래킹

초록

상세 분석

댓글 및 학술 토론

의견 남기기