음악 예측을 위한 상대적 음정 학습 모델

본 논문은 음악 시퀀스 예측에서 절대 피치 기반 모델이 갖는 일반화 한계와 반복 구조 학습의 어려움을 해결하기 위해 ‘순환 게이트형 자동인코더(RGAE)’라는 새로운 아키텍처를 제안한다. 서론에서는 음악 이론에서 많은 규칙이 상대적 음정(인터벌)으로 정의됨에도 불구하고, 기존 RNN은 절대 피치만을 입력으로 받아 전조(transposition)와 같은 변형에 취약함을 지적한다. 이를 보완하기 위해 입력 피치를 인터벌 표현으로 변환하고, 변환된 인터벌을 기반으로 시간적 의존성을 학습하도록 설계하였다. 관련 연구에서는 GAE와 같은 양선형 모델이 음악 변환 학습에 활용된 사례와, 기존의 확률 n‑gram, RBM 기반 모델들의 한계를 언급한다. 특히 RTDRBM이 현재 가장 좋은 성능을 보이지만, 여전히 절대 피치에 의존한다는 점을 강조한다. 모델 설계 부분에서는 GAE가 입력 xₜ₋ₙ…xₜ와 목표 xₜ₊₁ 사이의 인터벌을 매핑 벡터 mₜ₊₁으로 인코딩하고, 이를 통해 목표를 재구성하는 과정을 수식으로 제시한다. 매핑은 Hadamard 곱을 이용해 입력과 목표의 특징을 결합하며, 소프트플러스와 시그모이드 활성함수를 사용한다. 이후 GRU 기반 RNN이 매핑 시퀀스 mₜ를 입력으로 받아 은닉 상태 hₜ를 업데이트하고, 다음 매핑 eₜ₊₁을 예측한다. 예측된 매핑은 다시 GAE를 통해 실제 피치 x̂ₜ₊₁으로 복원된다. 전체 네트워크는 BPTT로 교차 엔트로피 손실을 최소화하도록 학습된다. GAE 사전 학습 단계에서는 전이‑불변성을 강화하기 위해 임의 전이 δ(−30~+30)를 적용한 데이터 증강과, 전이된 입력·목표 쌍에 대한 재구성 손실을 사용한다. 또한 매핑 레이어에 희소성 정규화와 가중치 정규화를 적용해 과적합을 방지한다. 실험 1에서는 EFSC 민요 컬렉션(54,308 음표)으로 멜로디 예측을 수행한다. GAE는 모차르트 피아노 폴리포닉 데이터(13곡, 106k 음표)로 사전 학습한 뒤, EFSC 데이터에 대해 RNN 부분을 110 epoch 학습하고 마지막 10 epoch은 전체 모델을 미세조정한다. 베이스라인 RNN은 50개의 GRU 유닛으로 동일 데이터에서 직접 학습한다. 결과는 RGAE가 교차 엔트로피 기준에서 RTDRBM 및 베이스라인 RNN보다 우수함을 보여준다. 또한 두 모델을 엔트로피 기반 가중치를 이용한 기하 평균 방식으로 앙상블했을 때, 예측 정확도가 더욱 향상된다. 이는 절대 피치 모델이 절대적인 음높이와 확률 분포를 잘 잡아내는 반면, RGAE는 구조적 반복과 전이 불변성을 통해 보완한다는 가설을 뒷받침한다. 실험 2에서는 복사‑이동 구조(예: 일정 간격으로 동일 멜로디를 전조하여 반복) 학습을 별도 과제로 설정한다. 여기서 RGAE는 인터벌 공간에서 일정한 변환을 반복 적용함으로써 이러한 구조를 명시적으로 학습하고, 테스트 시 정확히 같은 패턴을 재생산한다. 반면 절대 피치 RNN은 전이된 반복을 인식하지 못해 성능이 크게 떨어진다. 결론에서는 상대적 피치 처리와 순환 학습의 결합이 음악 예측·생성에 있어 전이 불변성과 구조 학습을 동시에 제공함을 강조한다. 향후 연구로는 다중 트랙(polyphonic) 음악에 대한 확장, 더 복잡한 형식(예: 변주·전조) 학습, 그리고 음악 생성 시스템에의 적용을 제시한다.

음악 예측을 위한 상대적 음정 학습 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기