조건부 제어로 확장한 퍼포먼스 RNN 기반 생성 음악 시스템

본 논문은 기존 퍼포먼스 RNN에 다양한 인간이 해석 가능한 조건 신호를 결합해 작곡가 스타일, 시대·지역, 조성·템포 등으로 음악 생성 결과를 제어하는 방법을 제안하고, 각 조건의 구현 방식과 청취자 평가를 통해 효과를 검증한다.

저자: Nicholas Meade, Nicholas Barreyre, Scott C. Lowe

조건부 제어로 확장한 퍼포먼스 RNN 기반 생성 음악 시스템
본 논문은 Magenta 프로젝트의 퍼포먼스 RNN을 기반으로, 인간이 직관적으로 이해하고 조작할 수 있는 다양한 메타데이터를 조건 신호로 활용해 음악 생성 과정을 제어하는 방법을 탐구한다. 퍼포먼스 RNN은 388개의 이벤트(노트 온·오프, 타임‑시프트, 벨로시티)로 구성된 시퀀스를 LSTM 네트워크에 입력해, 다음 이벤트의 확률 분포 P(eventₜ | event₍<ₜ₎) 를 예측한다. 기존 모델은 순수히 과거 이벤트만을 이용해 샘플링하기 때문에, 생성 결과에 대한 사용자의 직접적인 제어가 어려웠다. 저자들은 이를 보완하기 위해 ‘조건 신호’를 각 이벤트와 병렬로 입력하는 구조를 설계하였다. 데이터는 국제 피아노 e‑Competition에서 제공한 e‑Piano Junior Competition Dataset을 사용했으며, 총 2750개의 전문가 연주를 포함한다. 원본 MIDI를 퍼포먼스 RNN 포맷으로 변환하고, 5음정까지 전조와 2.5 %·5 % 템포 변형을 적용해 학습 샘플을 35배 확대하였다. 학습은 30초 길이의 조각을 교사 강제 방식으로 진행했으며, 각 이벤트마다 조건 벡터를 추가한다. 조건 신호는 네 가지 주요 범주로 나뉜다. 1. **작곡가 기반 조건** - **개별 작곡가**: 114명의 작곡가를 원‑핫 인코딩(다중 작곡가 경우 균등 가중)으로 표현한다. 데이터 분포는 로그 정규형이며, 상위 5명(바흐·베토벤·리스트·슈베르트·바흐)에게 편중된다. - **클러스터링**: 전문가 피아니스트가 46명의 작곡가를 8개의 스타일 클러스터로 분류하고, 나머지는 ‘기타’ 클러스터에 포함한다. 클러스터 신호는 9‑bit 원‑핫으로 전달한다. 2. **시간·지역 조건** - 작곡가의 출생 연도를 1600, 1700, 1800, 1900, 2000년대로 구분하거나, 연도를 0‑1 정규화해 연속적인 보간이 가능하도록 한다. - 위도·경도 역시 0‑1 정규화해 3‑차원 벡터(북‑남, 동‑서, 연도)로 제공한다. 3. **제목 기반 키·템포·형식 조건** - 악보 제목에서 ‘D Major’, ‘Allegro’ 등 키와 템포 정보를 추출한다. 키는 ‘주조·단조’ 두 클래스로, 템포는 5개의 동의어 그룹으로, 형식은 소나타·프렐류드·기타 등으로 라벨링한다. 라벨이 없는 경우에는 결측값을 0으로 채우고, 필요 시 균등 분포 샘플링을 적용한다. 4. **로컬 통계 조건** - 현재 구간의 노트 밀도, 평균 벨로시티, 피스 내 상대 위치 등을 실시간으로 계산해 입력한다. 조건이 제공되지 않을 때의 처리 방식도 상세히 논의한다. 기존 PerformanceRNN의 ‘옵션 조건’ 방식은 결측 시 0‑벡터와 존재‑표시 비트(c₀)를 사용했지만, 희소한 라벨(예: 템포 19 %)에서는 모델이 c₀ = 1 상태에만 최적화돼 실제 생성 시 품질이 급격히 떨어지는 문제가 발생했다. 저자들은 c₀ 비트를 완전히 제거하고, 결측값을 0으로 두는 ‘베이스 + 보정’ 접근법을 채택했다. 이 방식에서는 LSTM 첫 층이 기본 퍼포먼스 RNN을 학습하고, 조건이 존재할 경우 추가 가중치가 베이스 모델을 미세 조정한다. **평가** - **청취자 실험**: 5명의 전문 피아니스트에게 5명 작곡가(바흐·베토벤·쇼팽·드뷔시·모차르트)별 8개의 20초 샘플을 제시하고, 스타일 유사도를 1‑5점 척도로 평가하게 했다. 정답 작곡가에 대한 평균 점수는 2.76 ± 0.18, 오답은 1.95 ± 0.07으로, 조건이 실제 스타일 차이를 반영함을 확인했다. - **클러스터 vs 개별**: 클러스터 기반 조건은 개별 작곡가보다 품질이 낮았으며, 이는 ‘기타’ 클러스터에 포함된 68명의 작곡가가 충분히 학습되지 않아 모델이 불확실성을 크게 갖게 된 것이 원인이다. - **시간·지역 보간**: 연도 정규화를 이용한 연속 보간은 1600년대 스타일(바흐와 유사)이나 1900년대 스타일(인상주의적 화성) 등에서 비교적 성공적이었다. 위도·경도는 데이터 편중으로 인해 명확한 지역 특성을 재현하지 못했지만, 훈련 분포 밖의 좌표를 입력했을 때는 예상치 못한 창의적 변형을 생성했다. - **키·템포 조건**: 라벨이 희소한 경우 ‘unknown’ 플래그를 사용하면 모델이 해당 입력을 무시하고 기본 퍼포먼스 RNN과 동일한 품질을 내는 현상이 관찰되었다. 결측값을 0으로 채우고, 필요 시 균등 분포 샘플링을 적용함으로써 어느 정도 개선했지만, 라벨이 충분히 풍부한 경우에만 실용적이라고 결론지었다. **논의 및 향후 과제** - 조건부 입력이 LSTM 내부에서 ‘베이스 모델 + 보정 모델’ 구조로 작동한다는 가설을 제시하고, 실험을 통해 이를 검증했다. - 데이터 편중(작곡가, 지역, 라벨)의 영향을 크게 받으며, 특히 희소 라벨은 모델 학습을 방해한다는 점을 강조한다. - 향후 연구에서는 (1) 메타데이터 수집을 균형 있게 확대하고, (2) 악보 이미지·오디오와 같은 멀티모달 조건을 결합하며, (3) 실시간 인터랙티브 인터페이스를 구축해 사용자가 조건을 직관적으로 조작할 수 있는 시스템을 개발할 것을 제안한다. 본 논문은 기존 퍼포먼스 RNN에 인간 친화적인 제어 메커니즘을 성공적으로 통합함으로써, 생성 음악을 예술가와 청중이 원하는 스타일, 시대, 지역, 조성 등으로 맞춤화할 수 있는 가능성을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기