드럼 반주 생성을 위한 세밀한 리듬 제어[DARC

읽는 시간: 9 분
...

📝 원문 정보

- Title: DARC Drum accompaniment generation with fine-grained rhythm control
- ArXiv ID: 2601.02357
- 발행일: 2026-01-05
- 저자: Trey Brosnan

📝 초록

최근에는 높은 품질의 음악적으로 일관된 보조 악기 생성이 이루어졌지만, 시간 변동 특성에 대한 세밀한 제어가 부족하다. 이 연구에서는 사용자가 리듬 프롬프트를 기록하면, 그것이 드럼으로 렌더링되는 Tap2Drum 작업을 집중적으로 다룬다. 우리의 모델 DARC는 음악적 맥락과 리듬 프롬프트를 입력으로 받아, 음악적 일관성과 리듬 프롬프트에 대한 충실도를 평가한다.

💡 논문 해설

1. **세밀한 제어**: DARC 모델은 사용자가 특정 리듬을 기록하면, 그 리듬을 드럼으로 변환할 수 있다. 이는 마치 레스토랑에서 주방장이 손님의 요구에 따라 요리를 조정하는 것과 같다. 2. **타임브레 클래스**: DARC는 음악적 맥락과 리듬 프롬프트를 분석하여 각 타이밍을 특정 타임브레로 분류한다. 이는 마치 음악 밴드에서 각 악기의 역할을 정확히 지정하는 것과 같다. 3. **음향 품질**: DARC 모델은 현재까지 높은 품질의 오디오 생성에 어려움이 있지만, 이는 마치 새로운 음악 앱이 초기 버전에서 소리가 잡히지만 시간이 지나면 개선되는 것과 같다.

📄 논문 발췌 (ArXiv Source)

# 서론

최근에는 높은 품질의 음악적으로 일관된 보조 악기 생성이 이루어졌지만, 이 방법들은 종종 세밀한 시간 변동 특성에 대한 제어를 부족하게 한다. 이러한 제어는 특히 초기 음악 아이디어를 평가하기 전에 많은 시간을 투자하고 싶지 않은 창작자의 경우 유용하다. 본 연구에서는 사용자가 리듬 프롬프트를 기록하면, 그것이 드럼으로 렌더링되는 Tap2Drum 작업에 초점을 맞추고 있다. Tap2Drum의 최신 접근 방식은 타임브레 전송에 중점을 두는데, 사용자는 원하는 드럼 타임브레를 명시적으로 지정하기 위해 타임브레 프롬프트를 제공해야 한다. 예를 들어, 드럼 오디오를 타임브레 프롬프트로 제공해야 하는데 이는 다양한 곡마다 다른 드럼킷 소리를 필요로 하므로 반복 속도가 느려질 수 있다. 음악 편집 분야의 다른 작업들은 텍스트 제어를 제공하지만, 드럼 타임브레를 텍스트로 표현하는 것이 어려울 수 있으며 이러한 방법은 종종 타임브레 누출을 초래한다. Tap2Drum과 보조 악기 생성 분야의 일부 작업들은 온셋 기반 리듬 제어를 제공하지만, 이는 리듬 프롬프트에서 함축된 타임브레 카테고리를 포착하는 데 너무 거칠 수 있다.

우리는 DARC라는 드럼 보조 악기 생성 모델을 제안한다. 이 모델은 음악적 맥락과 리듬 프롬프트를 입력으로 받는다. 우리의 리듬 특징 표현은 비부호 행렬 분해(NMF) 기반으로, 온셋 기반 방법보다 더 세밀한 수준에서 각 온셋을 타임브레 클래스로 분류한다. DARC는 STAGE라는 최신 드럼 보조 악기 모델의 미세 조정이다. 음악적 맥락에서 타임브레를 추론하는 이유는 두 가지다: 첫째, 드럼은 거의 항상 단독 악기가 아니며 따라서 드럼 트랙의 목표는 종종 믹스를 보조하는 것이다; 둘째, 사용자가 타임브레 프롬프트를 제공해야 하는 요구 사항을 제거함으로써 반복 사이클이 더 짧아져 다양한 아이디어를 테스트할 수 있다. 데이터셋은 FMA 데이터셋에서 Demucs를 사용하여 드럼 스템을 추출한다. 미세 조정 시, 우리는 제안된 효율적인 매개변수 방법을 활용한다.

우리의 기여는 두 가지다:

  • 음악적 맥락과 특정 리듬에 대해 조건부로 작동하는 드럼 생성 모델
  • 입력 믹스와의 음악적 일관성 평가 및 리듬 프롬프트에 대한 온셋과 타임브레 클래스의 충실도 평가
제안된 리듬 조건음악 생성 모델의 아키텍처. 음악적 맥락과 리듬 프롬프트는 오디오 입력으로 제공된다. 토큰화된 음악적 맥락은 입력 시퀀스에 앞서 붙여지고, 리듬 프롬프트는 비부호 행렬 분해(NMF)를 사용하여 (온셋 시간, 타임브레 클래스) 쌍으로 전사된다. 리듬 임베딩은 점프 미세 조정과 적응형 인어텐션을 통해 자가 어텐션 레이어를 통과하며 모델은 EnCodec 오디오 토큰을 출력하고 이를 최종 웨이브폼으로 디코딩한다.

관련 작업

보조 악기 생성

최근에는 음악 보조 악기 생성 작업이 이루어졌으며, 이는 주어진 음악 믹스에 하나 이상의 트랙을 생성할 수 있다. 이러한 모델들 중 많은 부분은 텍스트 조건부를 지원하며 실제로는 텍스트-토-뮤직 모델 MusicGen의 미세 조정이다. 그러나 이러한 스템 투 스템 생성 모델들은 세밀한 리듬 제어가 설계되지 않았다. 일부 접근 방식은 온셋에 대한 조건부를 지원하지만, 이들 방법에서 제공되는 리듬 제어는 매우 느슨하며 모델이 온셋을 유지하는 대신 이를 안내로 사용하여 화려한 드럼 트랙을 생성한다. 또한, 단순히 온셋 타이밍은 킥 드럼과 스네어 드럼의 차이를 나타내는 함축된 타임브레 클래스를 포착하지 못한다. 우리의 작업은 더 높은 수준의 리듬 제어와 타임브레 클래스 유지가 가능하도록 한다.

드럼 생성의 보다 전문적인 측면에 초점을 맞춘 다른 연구도 있다. 예를 들어, 실제 시간에 드럼 악기 배경음을 생성하고 양방향 언어 모델을 사용하여 드럼 필을 생성한다. 우리는 이러한 방법의 실시간 또는 필 생성 적응성을 미래 작업으로 남겨두었다.

Tap2Drum 생성

다른 연구는 탭-투-드럼(Tap2Drum) 작업에 초점을 맞추며, 터핑이나 비트박싱을 입력으로 받아 동일한 리듬의 드럼 트랙을 생성한다. Tap2Drum은 처음 소개되었으며, 이는 onset 시간을 입력으로 받고 MIDI로 드럼을 생성한다. TRIA와 같은 다른 작업들은 타임브레 전송을 수행하며, 리듬 프롬프트 오디오를 고음질의 드럼 오디오로 직접 변환한다. 이러한 방법은 사용자가 원하는 정확한 타임브레를 가진 오디오 샘플을 제공해야 하므로 오디오 형식의 타임브레 프롬프트가 필요하다. 추가 작업들은 zero-shot이 아닌 타임브레 전송을 탐구하며, 각 목표 타임브레에 대해 모델을 재훈련한다. 우리의 모델인 DARC는 입력 믹스에 적합한 타임브레를 생성하여 특정 타임브레에 대한 프롬프트나 훈련의 필요성을 피한다. 또한, 우리의 리듬 특징은 타임브레 클래스와 온셋 시간을 인코딩하므로 기존의 타임브레 전송 접근 방식보다 더 세밀한 수준에서 작동한다.

방법

개요

우리 모델은 두 가지 오디오 형식의 입력을 받는다: 드럼이 없는 믹스를 음악적 맥락으로, 그리고 터핑이나 비트박싱 트랙과 같은 리듬 프롬프트. 우리의 목표는 각 타임브레 클래스의 리듬 프롬프트 온셋을 충실하게 유지하면서 입력 믹스와 강력한 음악적 일관성을 보이는 드럼 스템을 생성하는 것이다. 우리는 STAGE라는 최신 오픈 소스 모델을 미세 조정한다. 이 모델은 MusicGen에서 미세 조정되었으며, 훈련 시 드럼이 없는 믹스와 밀도계 같은 리듬 트랙에 기반한 조건부를 사용한다. STAGE는 약 6억 개의 매개변수를 포함하며, 우리는 매개변수 효율적인 미세 조정 기술을 활용하여 학습 가능한 매개변수 수를 한 자릿수로 줄인다. 별도의 STAGE 모델이 드럼과 베이스 스템 각각에 대해 훈련되었으며, 본 연구에서는 드럼 모델만 고려한다.

리듬 특징 표현

Tap2Drum 작업에서 중요한 도전 과제는 타임브레 누출이다. 생성된 스템은 리듬 프롬프트에 가까운 충실도를 보여야 하지만, 그 타임브레는 리듬 프롬프트와 독립적이어야 한다. 이를 해결하기 위해 우리는 비부호 행렬 분해(NMF)를 사용하여 리듬 특징을 얻는다. NMF는 리듬 프롬프트의 크기 스펙트로그램 S를 행렬의 곱으로 분해한다: $S=WH$. 기반 매트릭스 W는 타임브레 정보를 인코딩하고 활성화 매트릭스 H는 타이밍 정보를 인코딩한다. 특히, W의 행 인덱스와 H의 열 인덱스는 서로 다른 타임브레 클래스에 해당한다. 우리의 리듬 특징을 얻기 위해 우리는 행렬 W를 무시하고 각 타임브레 클래스의 활성화 시간을 담은 행렬 H만 사용한다. 따라서, 리듬 특징 표현은 MIDI와 유사하다: 비트박싱 트랙에 대한 경우, 각 노트의 온셋 시간과 타임브레 클래스 인덱스를 포함하되 기본적인 발성 타임브레 정보는 포함하지 않는다. 특히 중요한 점은 타임브레 클래스가 총 구성 요소 에너지의 감소 순서로 정렬되어 있다는 것이다. 이 방식으로, 모델은 타임브레 정보 행렬 W를 알 필요 없이 타임브레 클래스를 식별할 수 있다.

미세 조정

우리의 기본 모델인 STAGE는 드럼 스템을 생성하기 위해 무음 믹스에 조건부로 작동하는 MusicGen-Small 모델의 미세 조정이다. 훈련 시, 저자들은 입력 앞에 무음 믹스의 오디오 토큰과 구분기 토큰을 추가했다. 따라서 추론 시간에는 드럼 스템 생성이 프롬프트로 사용되는 입력 믹스를 기반으로 하는 연속 작업으로 설정된다. 저자들은 이 조건부 메커니즘이 교차 어텐션보다 우수하다고 판단했으며, 우리는 무음 믹스에 대한 조건부 메커니즘을 유지하고 세밀한 리듬 제어를 추가하기 위해 다른 접근 방식을 사용한다.

미세 조정 시, 약 80%의 STAGE 매개변수를 동결한다. 먼저 텍스트 인코더와 오디오 토큰 임베딩 모듈을 동결한 뒤, 제안된 두 가지 미세 조정 전략인 점프 미세 조정과 적응형 인어텐션을 활용한다. 점프 미세 조정에서는 디코더 블록의 첫 번째 자가 어텐션 레이어만 미세 조정하고 나머지 세 개의 레이어는 동결된다. 적응형 인어텐션에서 조건부 신호는 각 블록의 첫 번째 레이어에 다시 도입되며 이 메커니즘은 처음 75%의 블록에 적용된다. 예를 들어, 48개의 자가 어텐션 레이어를 가진 디코더는 12개의 자가 어텐션 블록을 갖게 되며 모든 레이어 중 $0, 4, 8, 12,\ldots, 44$ 레이어만 동결되며 리듬 조건은 $4, 8, 12,\ldots, 32$ 레이어에서 다시 적용된다.

데이터셋으로는 FMA Small을 사용하고 Demucs를 활용하여 드럼 스템을 추출한다. 음악적 맥락과 리듬 프롬프트에 대해 데이터 증강을 수행하며, 템포와 피치 이동, 가우시안 노이즈, 밴드 통과 필터링을 각각 독립적으로 25% 확률로 적용한다. 드럼이 없는 믹스에 적용된 증강은 훈련 시에도 정답 드럼 스템에 동일하게 적용되어 스템과 믹스 간의 일관성을 유도한다. 무작위 10-30초 구간의 오디오로 학습을 진행하며 로그 균일 샘플링으로 짧은 길이를 선호하여 평균 입력 길이는 약 18.2초, 전체 훈련 세트에 대한 예상 기간은 약 6시간이다. A100 GPU에서 배치 크기 4로 7 에폭 동안 학습을 진행하며 이는 약 2시간이 걸린다.

실험 설정

우리는 STAGE와 TRIA 모델과 비교하여 오디오 품질, 음악적 일관성 및 리듬 프롬프트 충실도를 평가한다. MUSDB18 데이터셋을 사용하여 음악적 일관성을 평가하고 AVP 비트박싱 데이터셋을 사용하여 리듬 프롬프트 충실도를 평가한다.

오디오 품질

우리는 주관적으로 오디오 품질을 평가한다. 전체적으로 우리는 음향 품질이 매우 낮다고 느껴지며, 배경에서 드럼이 아닌 악기 소리와 잡음이 종종 발생한다. 이러한 문제는 데이터셋 생성 시 스템 분리를 수행하는 과정에서 발생한 것으로 추측된다. 스템 분리 오류가 블리딩과 잡음을 초래한다는 것이 알려져 있으며, 우리의 관찰 결과와 일치한다. 향후 작업에서는 다른 스템 분리 모델을 실험하거나 정답 스템이 포함된 데이터셋을 평가하기 위해 사용하는 등 이러한 주장에 대한 검증을 진행할 계획이다.

리듬 프롬프트 충실도

우리는 타이밍 정확성과 타임브레 클래스 정확성을 측정하여 리듬 프롬프트 충실도를 분리한다. 온셋에 대해서는 70ms의 허용 오차 범위를 사용하고 Beat-This를 사용하여 생성된 및 정답 드럼 스템에서 온셋 감지 수행한다. 타임브레 클래스 충실도에 대해서는 FrameRNN을 사용하여 생성된 드럼 스템을 전사하고 킥과 스네어의 F1 점수를 계산하며 각각 30ms와 100ms의 표준 허용 오차 범위를 적용한다. 정답 비트박싱 트랙의 경우 데이터셋에서 제공하는 정답 주석을 사용한다.

오디오 품질 문제로 인해, DARC 출력에 대한 온셋 감지와 드럼 전사 모델은 빈약한 정확도를 보였으며 따라서 오디오를 후처리하여 고주파수를 게이트 처리하고 잡음과 블리딩을 줄이고 트랜지언트를 강화하며 가벼운 압축 및 정규화를 적용했다. 공정한 비교를 위해, 정답 리듬 프롬프트와 모든 비교 모델에 동일한 후처리를 적용하였다. 리듬 프롬프트는 9초로 자르고 2개 이상의 감지된 온셋이 없는 파일은 무시되었다 (AVP에서 4개의 이러한 파일을 발견하였다).

음악적 일관성

음악적 일관성을 평가하기 위해 각 드럼 스템과 무음 입력 믹스 간의 COCOLA 점수를 계산한다. MUSDB18에서 무작위로 선택한 50개 샘플의 10초 구간을 평가 세트로 사용한다. 기준선으로, 정답 드럼 스템과 무음 믹스 간의 COCOLA 점수를 계산한다. STAGE에 대한 평가에서는 원래 논문에서 설명한 대로 리듬 프롬프트로부터 박자를 감지하고 해당 클릭 트랙을 음악적 맥락과 합쳐서 그 결과를 STAGE의 입력으로 사용한다. 우리의 모델은 NMF 리듬 특징에 조건부를 직접 적용한다.

결과 및 논의

리듬 프롬프트 충실도

표 1은 우리의 리듬 충실도 결과를 보여준다. 모든 세 가지 지표에서 DARC는 TRIA와 STAGE에 밀린다. 위에서도 언급했듯이, 우리의 모델은 매우 낮은 오디오 품질을 가지고 있어 평가 모델들이 이에 견딜 수 없었다. 실제 AVP 데이터셋의 정답 리듬 프롬프트에서도 이러한 모델들은 저조한 성능을 보였다 (섹션 4.2 참조). 게다가, 우리의 후처리는 질적으로 평가 모델의 성능을 개선하는 것처럼 보이지만 완벽한 해결책은 아니었다. 특히, DARC의 오디오 품질만 개선된다면 실험 결과가 크게 개선될 것으로 예상한다. 따라서 출력 오디오 신뢰성 개선은 중요한 미래 작업이다; GAN을 학습 중 사용하거나 다른 소스 분리 모델이나 MoisesDB와 같은 정답 드럼 스템이 포함된 데이터셋을 사용하는 것이 효과적인 방법일 수 있다.

음악적 일관성

표 2는 우리의 음악적 일관성 결과를 보여준다. DARC의 COCOLA 점수가 STAGE와 정답에 비해 크게 낮게 나왔다. 역시, 저 품질 오디오가 이러한 결과에 영향을 미쳤다고 추측한다 (섹션 4.1 참조). 흥미롭게도 STAGE는 실험에서 약간의 여유로 정답보다 더 높은 점수를 받았다. 이는 반짝이는 것이지만, STAGE가 단순히 정답 드럼 트랙보다 더 일관된 드럼 스템을 생성했기 때문이 아니라 COCOLA 모델 자체의 제한성을 반영하는 것일 수도 있다. 질적으로 보면, STAGE 출력은 정답 드럼 트랙보다 훨씬 많은 총 노트 수를 가지는 화려함을 보였고 이에 대해 COCOLA가 음악적 맥락과 리듬적으로 일치하는 각 노트를 평가했지만, 인간 청취자는 이러한 화려함이 과도하다고 판단할 수 있다. 이를 극복하기 위한 미래 작업의 동기다.


📊 논문 시각자료 (Figures)

Figure 1



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키