드럼 트랙 생성 고수준 제어를 위한 리듬 상호작용 패턴 학습

본 논문은 음악 생성 분야에서 특히 “조건부 제어” 문제를 다루며, 베이스와 스네어 트랙을 조건으로 킥 드럼 트랙을 자동 생성하는 새로운 모델을 제시한다. 저자는 리듬 상호작용을 저차원 매핑 코드에 압축하고, 이 코드를 가우시안 사전분포에 맞추어 학습함으로써 사용자가 원하는 리듬 관계를 직접 선택하거나 샘플링할 수 있는 고수준 제어 메커니즘을 구현한다. 1. **배경 및 동기** 음악 생성에서 VAE, GAN 등 다양한 딥러닝 기법이 사용되고 있으나, 기존 방법들은 주로 전체적인 스타일이나 구조를 제어한다. 반면 실제 작곡가나 프로듀서는 특정 악기 간의 리듬적 관계—예를 들어 킥이 베이스와 스네어에 어떻게 맞물리는가—를 조절하고 싶어한다. 이를 위해 저자는 “리듬 상호작용”을 직접 모델링하는 접근법을 선택한다. 2. **모델 구조** 핵심은 Convolutional Gated Autoencoder(CGAE)이다. 입력 x는 네 개의 1‑D 시퀀스로 구성된다: 베이스 온셋, 스네어 온셋, 비트 확률, 다운비트 확률. 목표 y는 킥 드럼의 온셋이다. CGAE는 다음 과정을 거친다: - U·x와 V·y를 각각 컨볼루션으로 변환하고, Hadamard 곱을 수행한다. - W 컨볼루션을 통해 위 곱을 저차원 매핑 m (Q×T) 로 압축한다. - 역전파 단계에서 m과 U·x를 다시 결합해 Vᵀ·(U·x·Wᵀ·m) 형태로 킥 온셋을 재구성한다. 학습 손실은 기본 MSE 외에 세 가지 정규화 항을 포함한다. L_const는 인접 프레임 간 매핑 차이를 최소화해 매핑이 시간에 따라 크게 변하지 않도록 한다. L_std는 각 매핑 채널이 평균 0, 분산 1을 갖도록 정규화해 가우시안 사전과의 일치를 촉진한다. L_advers는 적대적 판별기 D를 도입해 매핑이 입력 x와 무관하도록 강제한다. 구체적으로, (U·x, m)과 (U·x, η) (η는 무작위 가우시안) 를 D에 입력하고, D가 두 경우를 구분하도록 학습한다. 이를 통해 매핑은 순수히 리듬 관계만을 담게 된다. 3. **템포·시간 이동 불변성** 데이터 증강 ψ_θ 를 적용해 입력 시퀀스를 무작위 시프트(±150 프레임)와 스케일(0.8~1.2) 변환한다. 변환된 x와 원본 매핑 m을 사용해 변환된 목표 ψ_θ(y)와의 MSE를 최소화함으로써, 매핑이 시간 이동·템포 변화에 강인하도록 만든다. 이는 리듬 패턴이 로컬하게 일정하다는 가정에 기반한다. 4. **학습 세부사항** U·V 경로는 8개의 컨볼루션 레이어(채널 32→256, 커널 2, dilation 2ⁿ)를 사용하고, W 경로는 6개의 1‑D 컨볼루션 레이어(채널 128→16)를 사용한다. 모든 레이어는 SELU 활성화와 50% 드롭아웃을 적용한다. 전체 학습은 2500 epoch, 배치 100으로 진행되었다. 5. **데이터 및 전처리** 데이터셋은 665개의 훈련곡과 193개의 검증곡으로 구성된 팝·록·일렉트로 곡이며, 각 곡은 베이스·킥·스네어 트랙이 별도 오디오 파일로 제공된다. 온셋 추출은 Yaafe 라이브러리의 ComplexDomainOnsetDetection을 사용하고, 비트·다운비트는 madmom의 RNN 기반 추정기를 활용한다. 모든 시퀀스는 곡별로 평균 0, 표준편차 1 로 정규화한다. 6. **음성 렌더링** 재구성된 킥 온셋 ŷ는 저역통과 Butterworth 필터와 피크 검출을 통해 실제 킥 이벤트 위치를 결정한다. 이후 “one‑shot” 킥 샘플을 해당 위치에 배치하고, 피크 강도에 따라 볼륨을 70%~100% 사이로 조절해 다이내믹스를 부여한다. 7. **실험** 세 가지 시나리오를 통해 모델의 유용성을 검증한다. - **조건부 생성**: 16‑차원 가우시안에서 매핑 m을 샘플링하고 전체 트랙에 동일하게 적용해 20개의 킥 트랙을 생성, 그 중 가장 다양성을 보이는 10개를 청취 평가에 사용하였다. 결과는 다양한 리듬 패턴이 생성되었으며, 매핑이 일정함에도 불구하고 베이스·스네어와의 상호작용을 반영한다는 점을 보여준다. - **스타일 전송**: 한 곡에서 추출한 매핑 시퀀스를 k‑means 클러스터링(클러스터 수는 Davis‑Bouldin 지표로 결정, 일반적으로 5~8)하고, 가장 큰 클러스터의 중심을 다른 곡에 적용해 스타일을 전송하였다. 전송된 킥 트랙은 원곡의 리듬적 특성을 유지하면서도 새로운 베이스·스네어와 조화하였다. - **템포 불변성**: WSOLA 기반 시간 스트레칭(80%, 90%, 110%, 120%)을 적용한 후 원곡에서 추출한 매핑을 그대로 사용해 킥 트랙을 재구성하였다. 모든 템포에서 킥 패턴이 일관된 스타일을 유지하면서도 템포에 맞게 적절히 조정되는 것을 시각적으로 확인하였다. 정량적 평가는 온셋 재구성 정확도(F‑score)로 수행되었다. Ground‑truth 매핑을 사용했을 때 훈련·검증 셋 모두 F‑score ≈0.86을 기록했으며, 스타일 전송 매핑에서도 0.71 수준을 유지했다. 이는 매핑이 리듬 정보를 충분히 보존함을 의미한다. 또한, 매핑을 전체 시간에 걸쳐 하나의 고정값으로 대체했을 때도 F‑score가 0.7 이상으로 유지돼 매핑 공간이 시간에 크게 변하지 않는다는 가정을 실험적으로 확인하였다. 8. **결론 및 향후 과제** 이 연구는 악기 간 리듬 상호작용을 저차원 매핑으로 압축하고, 이를 가우시안 사전과 적대적 학습을 통해 정규화함으로써 사용자가 직관적으로 “어떤 리듬 관계”를 선택해 드럼 트랙을 제어할 수 있게 만든다. 기존 VAE 기반 전역 스타일 제어와는 달리, 특정 악기 간의 관계 수준에서 세밀한 제어가 가능하다는 점이 큰 장점이다. 향후 연구에서는 매핑을 다중 악기(예: 하이햇, 퍼커션)로 확장하고, 실시간 인터랙션 인터페이스를 구축해 작곡가가 직접 매핑을 탐색·조정할 수 있는 시스템을 개발하는 것이 제안된다.

드럼 트랙 생성 고수준 제어를 위한 리듬 상호작용 패턴 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기