지역 스타일을 반영한 중국 민요 생성 MG VAE

MG‑VAE는 VAE 기반의 음악 생성 모델로, 피치·리듬과 스타일·콘텐츠를 각각 4개의 잠재 변수로 분리한다. adversarial 학습과 시간적 감독을 이용해 지역별 특성을 명확히 disentangle하고, 이를 통해 지정된 지역 스타일의 새로운 중국 민요를 조절 가능하게 생성한다.

저자: Jing Luo, Xinyu Yang, Shulei Ji

지역 스타일을 반영한 중국 민요 생성 MG VAE
본 논문은 중국 전통 민요, 특히 ‘민가(民歌)’라 불리는 지역별 특성을 지닌 곡들을 대상으로, 딥러닝 기반 자동 작곡 모델을 설계하고 검증한다. 연구 배경으로는 기존의 음악 생성 연구가 서양 음악에 편중되어 있으며, 중국 음악은 수직적 화성 구조보다 수평적 멜로디 전개와 리듬·피치 간격 패턴에 의해 지역 스타일이 형성된다는 점을 제시한다. 이러한 특성을 반영하기 위해 저자들은 VAE(Variational Auto‑Encoder)를 기반으로 한 MG‑VAE 모델을 제안한다. MG‑VAE는 입력된 MIDI 기반 멜로디를 피치 시퀀스(P), 인터벌 시퀀스(I), 리듬 시퀀스(R)로 분해한다. 피치와 리듬 각각에 대해 스타일 변수와 콘텐츠 변수를 별도로 학습하도록 잠재 공간을 4개(피치‑스타일 Z_Ps, 피치‑콘텐츠 Z_Pc, 리듬‑스타일 Z_Rs, 리듬‑콘텐츠 Z_Rc)로 나눈다. 인코더는 양방향 GRU와 residual 연결을 사용해 멜로디 특징을 추출하고, 각 잠재 변수는 선형 변환을 통해 얻어진다. 디코더는 피치와 리듬 전용 두 개가 존재하며, 각각 스타일·콘텐츠 변수를 결합해 피치와 리듬 시퀀스를 재구성한다. 전체 멜로디는 네 개의 잠재 변수를 다시 결합해 복원한다. 잠재 변수의 독립성을 확보하기 위해 두 종류의 adversarial 학습이 도입된다. 첫 번째는 ‘시간적 감독’으로, 피치 변수에 리듬 디코더를, 리듬 변수에 피치 디코더를 입력했을 때 모두 제로 시퀀스를 출력하도록 강제한다. 이는 교차 오염을 방지하고 각 변수에 해당하는 정보만을 보존하게 만든다. 두 번째는 ‘스타일‑콘텐츠 분리’로, 스타일 변수는 지역 라벨을 예측하도록 학습하고(교차 엔트로피 손실), 콘텐츠 변수는 라벨 정보를 억제하도록(엔트로피 최대화) 학습한다. 스타일 분류기와 콘텐츠 분류기는 각각 하나의 선형 레이어와 Softmax로 구성된다. 학습 과정에서는 KL 발산 손실에 β‑스케줄링(0→0.15)을 적용해 posterior collapse를 완화하고, 전체 손실은 재구성 손실(H, BCE), KL 손실, 두 개의 adversarial 손실, 스타일 분류 손실, 콘텐츠 엔트로피 손실을 합산한다. 데이터는 중국 민요 통합 프로젝트에서 발췌한 2000여 곡의 MIDI 파일을 사용한다. 곡은 우(江蘇·浙江·上海), 샹(湖南), 북산시, 위구르, 몽골, 한국 등 6개 지역으로 구분되며, 모두 C키로 전조된다. 피치·인터벌·리듬 토큰 차원은 각각 40, 46, 58이며, 32길이 윈도우와 1스텝 홉으로 슬라이딩해 총 65,508개의 삼중 시퀀스를 만든다. 평가에서는 (1) 재구성 정확도: 테스트 셋에서 원본과 복원된 시퀀스 일치율을 측정해 VAE의 기본 성능을 확인한다. (2) 스타일 인식 정확도: 별도 훈련된 스타일 분류기로 생성된 곡의 지역 라벨을 예측해 82.71%의 정확도를 달성, 스타일 변수가 실제 지역 특성을 잘 반영함을 증명한다. (3) 인간 청취자 평가: 청취자에게 스타일 변수 조작 전후의 곡을 들려주고, 지역적 색채와 음악적 만족도를 설문했을 때, 스타일 변수를 명시적으로 제어한 곡이 무작위 생성곡보다 현저히 높은 선호도를 보였다. 결과적으로 MG‑VAE는 피치·리듬과 스타일·콘텐츠를 동시에 disentangle함으로써, 사용자가 원하는 지역 스타일을 직접 지정해 새로운 민요를 생성할 수 있게 한다. 이는 동일 장르 내에서 미세한 지역 변이를 모델링한다는 점에서 기존 서양 중심의 음악 생성 연구와 차별화된다. 향후 연구 방향으로는 다중 트랙(화성, 악기) 지원, 가사와의 연계, 더 큰 규모의 민요 데이터베이스 구축, 그리고 스타일 전이(예: 한 지역 스타일을 다른 지역에 적용) 등을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기