다중악기와 다이내믹을 다루는 MIDI VAE와 스타일 전이

MIDI VAE는 변분 오토인코더 기반 모델로, 멀티트랙 폴리포닉 MIDI 데이터를 피치, 속도, 악기 정보를 함께 학습한다. 공유 잠재공간과 스타일 분류기를 이용해 클래식, 재즈, 팝 등 서로 다른 장르 간에 피치, 다이내믹, 악기 구성을 자동으로 변환하는 스타일 전이를 수행한다. 또한 바 단위의 인터폴레이션, 메들리 생성, 곡 혼합 등 다양한 음악 생성 기능을 제공한다.

저자: Gino Brunner, Andres Konrad, Yuyi Wang

다중악기와 다이내믹을 다루는 MIDI VAE와 스타일 전이
본 논문은 변분 오토인코더(VAE)를 기반으로 한 MIDI VAE 모델을 제안한다. 기존의 심볼릭 음악 생성 모델은 주로 피치 정보만을 다루어 다이내믹(노트 길이·벨로시티)과 악기 트랙을 무시하는 한계가 있었다. 이를 해결하기 위해 저자들은 MIDI 파일에서 추출한 세 가지 롤, 즉 피치 롤(pitch roll), 벨로시티 롤(velocity roll), 악기 롤(instrument roll)을 각각 별도의 GRU 인코더‑디코더에 입력하고, 세 인코더의 출력을 하나의 완전연결 레이어를 통해 결합해 공유 잠재공간 z 를 만든다. 잠재공간은 표준 정규분포를 사전으로 두고, β‑VAE 방식으로 KL‑다이버전스 가중치를 조절해 잠재 변수의 분산을 억제하면서 재구성 손실을 최소화한다. 핵심적인 설계는 스타일 분류기를 잠재공간의 상위 k 차원에 부착한 점이다. 여기서 k 는 데이터셋에 존재하는 스타일(클래식, 재즈, 팝, 바흐, 모차르트)의 수와 동일하게 설정한다. 소프트맥스 분류기를 통해 스타일 레이블을 예측하도록 학습함으로써, 인코더는 스타일 정보를 압축된 형태로 z 에 기록한다. 스타일 전이는 z 의 해당 k 차원 값을 목표 스타일의 차원값으로 교체한 뒤 디코더에 다시 입력함으로써 이루어진다. 이 과정은 별도의 정교한 매핑 없이도 피치, 벨로시티, 악기 배치를 동시에 변환한다는 장점을 가진다. 데이터 전처리에서는 각 곡을 16분음표 기준 한 마디(바) 단위로 분할하고, 최대 4 개의 트랙을 선택해 가장 높은 음역을 대표 음성으로 사용한다. 이는 모델이 일정한 길이의 시퀀스를 학습하도록 하면서도, 다중 트랙 간의 화성 관계를 보존하도록 돕는다. 벨로시티는

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기