다중 악기 드럼 자동 전사: 합성 데이터와 딥러닝 모델
본 논문은 기존 3종류(스네어, 베이스, 하이햇) 드럼 전사에 머물던 한계를 넘어, 8종 및 18종의 표준 드럼 키트를 대상으로 자동 전사 시스템을 구축한다. 이를 위해 4 200여 트랙·259시간 규모의 대규모 합성 데이터셋을 제작하고, CNN 및 CRNN 기반 모델을 학습시켜 실제 데이터에 대한 일반화 성능을 평가한다. 실험 결과, 합성 데이터와 적절한 학습 전략을 활용하면 다중 악기 전사 정확도가 크게 향상됨을 확인하였다.
저자: Richard Vogl, Gerhard Widmer, Peter Knees
본 논문은 자동 드럼 전사(Automatic Drum Transcription, ADT)의 적용 범위를 기존의 3가지 악기(스네어, 베이스, 하이햇)에서 표준 드럼 키트에 포함된 8가지 및 18가지 악기로 확대하는 것을 목표로 한다. 이를 위해 먼저 현재 공개된 ADT 데이터셋(ENST Drums, MDB‑Drums 등)의 한계를 상세히 분석한다. 기존 데이터는 트랙 수가 적고, 특히 저빈도 악기(톰, 심벌, 클라베 등)의 라벨이 매우 희소해 다중 클래스 학습에 부적합하다는 점을 지적한다.
이 문제를 해결하기 위해 저자들은 4 197개의 MIDI 파일을 기반으로 259시간 분량의 합성 오디오 데이터를 생성한다. 각 MIDI는 다양한 드럼 샘플, 템포 변형, 다이내믹 변화를 적용해 실제 녹음과 유사한 스펙트로그램 특성을 갖도록 만든다. 전처리 단계에서는 2048‑샘플 FFT, 441‑샘플 홉, 20 Hz~20 kHz 로그‑멜 필터(옥타브당 12밴드)를 사용해 84개의 주파수 밴드와 그 시간 미분을 결합해 168차원 피처 벡터를 만든다.
모델은 두 가지 아키텍처로 구현된다. 첫 번째는 순수 CNN이며, 다섯 개의 2‑D 컨볼루션 레이어와 배치 정규화·ReLU를 거쳐 두 개의 전결합 레이어로 각 클래스별 활성화 함수를 출력한다. 두 번째는 CRNN으로, 동일한 컨볼루션 블록 뒤에 양방향 GRU 레이어 두 개를 삽입해 시간적 종속성을 모델링한다. 두 모델 모두 멀티‑태스크 방식으로 3, 8, 18 클래스 모두를 동시에 학습하도록 설계되었다.
학습은 Adam 옵티마이저(lr=0.001)와 미니배치(CNN 100, CRNN 8)를 사용하고, 검증 손실이 10 epoch 연속 개선되지 않으면 학습률을 0.2배 감소시키는 조기 종료 전략을 적용한다. 3‑fold 교차 검증을 통해 데이터 분할을 일관되게 유지하고, 드럼 솔로 파트를 별도 학습 데이터로 활용해 과적합을 방지한다. 피크‑픽킹 단계에서는 기존 연구와 동일하게 m=a=w=2인 윈도우와 평균값 플러스 임계값 δ를 사용해 스파이크 형태의 활성화 함수에서 정확한 온셋을 추출한다.
평가에서는 ENST, MDB‑Drums, 그리고 자체 합성 데이터셋을 각각 3‑class, 8‑class, 18‑class 레이블 체계에 매핑해 F‑measure(Mean / Sum)를 측정한다. 기존 3‑class SotA 모델(0.78) 대비 CNN/CRNN은 약간 낮은 성능을 보였지만, 8‑class와 18‑class으로 확장했을 때 CRNN이 평균 F‑measure 0.68~0.77을 달성하며 가장 높은 성능을 기록했다. 특히 합성 데이터만으로 학습한 모델이 실제 데이터에서도 경쟁력 있는 결과를 보여, 합성 데이터의 다양성과 라벨 정확성이 실제 환경 전사에 충분히 기여함을 증명한다. 클래스 수가 증가함에 따라 평균 F‑measure는 감소하지만, Sum‑기반 F‑measure는 비교적 유지되어 희소 클래스 평가의 어려움을 시사한다.
논문의 주요 기여는 다음과 같다. (1) 4 197 트랙·259시간 규모의 대규모 합성 드럼 데이터셋 공개, (2) 다중 악기 전사를 위한 단일 멀티‑태스크 CNN/CRNN 모델 제안, (3) 3, 8, 18 클래스 체계에 대한 체계적 실험 및 공개 모델 배포. 또한, 합성 데이터와 실제 데이터를 혼합 학습함으로써 모델 일반화가 크게 향상된다는 점을 확인하였다. 향후 연구 방향으로는 마이크 배치와 믹싱 환경 다양성, 바 경계·템포와 같은 리듬 메타 정보를 동시에 학습하는 멀티‑모달 모델, 그리고 실시간 전사 시스템 구축 등이 제시된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기