양방향 LSTM으로 만든 폴리포닉 음악 생성기

본 논문은 시간축과 음표축을 각각 LSTM으로 처리하는 ‘바이액시얼’ 구조와 컨볼루션 형태의 윈도우 커널을 결합해, MIDI 기반 폴리포닉 음악을 학습·생성하는 모델을 제안한다. 모델은 교차 엔트로피 손실을 최소화하며, 병렬 연산과 유연한 하이퍼파라미터 설정을 통해 다양한 음악 스타일에 적용 가능함을 보였다.

저자: Nikhil Kotecha, Paul Young

양방향 LSTM으로 만든 폴리포닉 음악 생성기
**1. 서론** 음악 생성은 과거 정보를 기억하고, 멜로디·화성 등 복합적인 구조를 이해해야 하는 어려운 과제이다. 기존 연구들은 주로 단일‑축 RNN이나 제한된 마크로 구조만을 학습해, 생성된 곡이 일관된 음악적 흐름을 갖지 못하는 문제를 보였다. 저자들은 이러한 한계를 극복하기 위해, 시간 축과 음표 축을 각각 LSTM으로 처리하는 ‘바이액시얼’ 구조와, 컨볼루션‑유사 윈도우 커널을 도입해 음표 간 지역적 관계를 포착하는 모델을 제안한다. **2. 방법론** - **데이터 표현**: MIDI 파일을 ‘노트 상태 매트릭스’(play, articulate 두 비트)로 변환하고, 4차원 텐서(Note_State_Batch)로 배치한다. 이는 시간 단계(T), MIDI 음표 수(N), 그리고 두 비트 차원을 포함한다. - **모델 아키텍처**: 1) **입력 커널**: 각 음표‑시간 쌍을 1) MIDI 번호, 2) 피치 클래스 원‑핫, 3) 주변 n개의 플레이/아티큘레이션 값, 4) 피치 클래스별 총 플레이 수, 5) 마디 내 16분음표 위치 정보로 확장한다. 이는 컨볼루션 커널처럼 지역 패턴을 인코딩한다. 2) **시간축 LSTM**: 확장된 입력을 모든 음표에 대해 동일한 가중치로 동시에 처리해 시간적 연속성을 학습한다. 이 단계는 완전 병렬화가 가능해 GPU 효율을 높인다. 3) **음표축 LSTM**: 시간축 LSTM의 출력과 이전 음표의 출력(노트‑윈도우) 를 결합해 각 음표별 조건부 확률을 계산한다. 여기서 음표축은 음표 순서에 따라 순차적으로 진행된다. 4) **출력 및 손실**: 최종 출력은 play와 articulate 각각에 대한 로짓이며, 교차 엔트로피 손실을 사용한다. 아티큘레이션이 없는 음표에 대해서는 손실을 무시한다. - **학습 설정**: TensorFlow 기반 구현, Adam 대신 AdaDelta(학습률 1.0) 사용, 각 LSTM 레이어에 0.75 드롭아웃 적용, 배치 크기와 시퀀스 길이 등은 사용자가 자유롭게 설정 가능하도록 파라미터화하였다. **3. 구현 및 실험** - **플랫폼**: Google Cloud Platform GPU 인스턴스에서 TensorFlow 1.x 기반으로 구현. - **데이터셋**: 바흐 코랄(MIDI)과 클래식 피아노(MIDI) 두 종류를 사용했으며, 훈련·검증·테스트 비율은 8:1:1로 분할하였다. - **훈련 과정**: 로그우도와 교차 엔트로피 감소를 모니터링했으며, 50 epoch 이후 수렴을 확인하였다. - **생성 과정**: 학습된 모델에서 각 시간 단계마다 베르누이 샘플링을 통해 play와 articulate를 결정하고, 이를 다음 단계 입력으로 피드백한다. 생성된 시퀀스는 MIDI 파일로 변환해 청취 및 시각적 피아노 롤 분석을 수행하였다. - **평가**: 정량적으로는 테스트 셋에 대한 평균 로그우도와 교차 엔트로피가 기존 단일‑축 LSTM 대비 12% 개선되었으며, 정성적으로는 청취자 설문에서 ‘음악적 일관성’과 ‘화성 다양성’ 점수가 평균 4.2/5점(10점 만점)으로 나타났다. **4. 논의** 바이액시얼 LSTM은 시간‑음표 양축을 동시에 고려함으로써 장기적 멜로디 흐름과 단기적 화성 관계를 모두 학습한다. 입력 커널은 지역 패턴을 효과적으로 인코딩해 피치 순환성과 옥타브 불변성을 보존한다. 또한, 텐서 연산 중심의 구현은 GPU 병렬화를 극대화해 학습 시간을 기존 대비 약 30% 단축시켰다. 그러나 현재 모델은 다이내믹(음량)이나 표현 기호(강세, 슬러 등)를 다루지 않으며, 베르누이 샘플링에 의한 ‘모드 붕괴’ 현상이 가끔 발생한다. **5. 결론 및 향후 연구** 본 논문은 바이액시얼 LSTM과 커널 기반 입력 확장을 통해 폴리포닉 음악 생성에서 구조적 일관성과 화성 다양성을 크게 향상시켰음을 입증한다. 향후 연구에서는 (1) 다중 트랙·다이내믹 정보를 포함한 멀티모달 입력, (2) 강화학습 기반 피드백 루프를 통한 인터랙티브 작곡, (3) 변분 오토인코더와 결합해 스타일 변환 능력 강화 등을 목표로 한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기