피아노 연주 오디오와 악보 정렬을 위한 RNN 기반 자동 음악 전사

본 논문은 피아노 연주의 오디오와 악보(MIDI)를 고정밀도로 정렬하는 새로운 프레임워크를 제안한다. 기존의 오디오‑스코어 정렬은 주로 STFT 기반 스펙트로그램이나 손수 설계한 크로마 피처를 사용했으며, 이러한 특징은 악기마다, 연주자의 다이내믹스마다 변동성이 커 정밀 정렬에 한계가 있었다. 저자들은 이러한 문제를 해결하기 위해 자동 음악 전사(AMT) 기술을 직접 특징 추출기로 활용한다. 구체적으로 두 개의 RNN 기반 AMT 모델을 설계했으며, 첫 번째 모델은 멀티해상도 STFT 입력을 받아 88개의 피아노 키 혹은 12개의 크로마 채널에 대한 프레임‑레벨 존재 여부를 이진 예측한다. 두 번째 모델은 동일 입력을 사용하지만 12채음의 온셋만을 목표로 학습한다. 온셋 모델은 Ewert 등이 제안한 디케이잉 크로마 온셋(DL‑NCO) 아이디어를 차용해, 온셋을 10프레임(100 ms) 동안 감쇠 가중치(1, √0.9, √0.8, …)를 부여해 온셋을 강조한다. 네트워크는 양방향 LSTM을 채택해 과거와 미래 정보를 모두 활용한다. 88음 모델은 2층 200유닛, 12채음 모델은 2층(100, 50) 유닛으로 경량화했으며, 출력층은 시그모이드 활성화로 이진 확률을 제공한다. 입력 전처리 단계에서는 짧은(2048샘플)와 긴(8192샘플) 윈도우 STFT를 결합하고, 반음 간격의 필터뱅크로 차원을 183으로 축소한다. 또한 1차 차분을 추가해 전이 특성을 강화하였다. 학습은 MIDI를 피아노‑롤 형태로 변환해 프레임‑레벨 라벨을 생성하고, 교차 엔트로피 손실을 최소화한다. 드롭아웃(0.5)과 L2 정규화(1e‑4)를 적용해 일반화 성능을 높였으며, 학습률은 초기 0.1에서 검증 손실이 개선되지 않을 때마다 3배 감소시키는 조기 종료 전략을 사용했다. 정렬 단계에서는 두 모델의 출력을 단순히 연결(concatenation)하고, 유클리드 거리 기반 유사도 행렬을 만든 뒤 FastDTW(반복적 다중해상도 DTW)로 최적 경로를 탐색한다. FastDTW는 O(N) 복잡도로 대규모 프레임 시퀀스에서도 실시간에 가까운 연산을 가능하게 한다. 실험에서는 MAPS 데이터셋의 ‘MUS’ 서브셋을 4‑fold 교차 검증으로 평가했으며, 온셋 오차를 0‑200 ms 구간에서 10 ms 간격으로 측정했다. 결과는 온셋 모델을 포함한 전체 시스템이 평균 오차 12.83 ms(표준편차 6.40 ms)를 기록, 기존 Ewert의 크로마‑온셋 기반 방법(평균 16.44 ms)과 Carabias‑Orti의 NMF 기반 방법(평균 131.31 ms)보다 현저히 우수했다. 특히 온셋 피처를 제외하고 88음만 사용할 경우 평균 오차가 48 ms로 급격히 악화되는 점은 온셋 정보가 정렬 정확도에 미치는 영향을 명확히 보여준다. 본 연구의 주요 기여는 다음과 같다. 첫째, AMT 모델을 정렬용 특징 추출기로 재활용함으로써 악기·다이내믹스에 강인한 특징을 자동 학습한다. 둘째, 온셋 강조를 위한 디케이잉 크로마 온셋 피처 설계로 시간적 정확성을 크게 향상시킨다. 셋째, 경량화된 양방향 LSTM과 겹치는 세그멘테이션을 통한 학습 효율성 증대로 메모리 사용을 최적화한다. 넷째, FastDTW를 이용해 실시간 수준의 정렬을 구현한다. 한계점으로는 현재 피아노 전용 모델에 국한되어 있어 다른 악기에 대한 일반화가 필요하고, 온셋 라벨링이 정확히 맞춰진 MIDI 데이터에 의존한다는 점이다. 향후 연구에서는 다중 악기, 다중 음역을 포괄하는 멀티태스크 AMT 모델과, 온셋 외에 지속시간·다이내믹스 정보를 동시에 활용하는 복합 피처를 탐색할 여지가 있다.

피아노 연주 오디오와 악보 정렬을 위한 RNN 기반 자동 음악 전사

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기