부트레그 악보 합성: MIDI와 악보 이미지를 잇는 새로운 정렬 기술
초록
본 연구는 MIDI 음악 파일과 해당 악보 스캔 이미지 간의 시간적 정렬 문제를 해결합니다. 복잡하고 오류가 많은 광학 음악 인식(OMR)을 우회하는 새로운 접근법으로, MIDI 데이터와 악보 이미지를 모두 단순한 ‘부트레그’ 이미지 표현으로 변환한 후, 동적 시간 왜곡(DTW) 기법으로 정렬합니다. 실제 피아노 악보 68개로 구성된 데이터셋에서 1초 오차 허용 범위 내 97.3%의 높은 정확도를 달성하여 기존 OMR 기반 방법들을 능가하는 성능을 보여줍니다.
상세 분석
이 논문의 핵심 기술적 통찰은 ‘양쪽 모두를 이미지 도메인으로 끌어내린다’는 발상에 있습니다. 기존 교차 모달(cross-modal) 정렬은 한쪽 표현(예: 악보 이미지)을 다른 쪽 표현(예: MIDI)과 동일한 형태(심볼릭)로 변환(OMR)해야 했으나, 이 과정에서 발생하는 복잡성과 오류가 주요 병목이었습니다.
본 연구는 이 문제를 우회하기 위해 ‘부트레그(Bootleg) 스코어’라는 중간 표현을 도입합니다. 이는 악보의 모든 시각적 요소를 배제하고 오직 음표 헤드의 위치 정보만을 직사각형 블롭(blob) 형태로 표현한 흑백 이진 이미지입니다. 시스템은 두 단계의 투영(projection)을 수행합니다: 1) 악보 이미지에 대해 딥 워터셰드 방식을 사용한 정교한 음표 헤드 검출기를 적용해 부트레그 표현을 생성하고, 2) MIDI 데이터에 대해서는 악보의 스태프 좌표계를 추정한 후, MIDI 음고 정보를 해당 픽셀 위치의 블롭으로 단순하게 합성합니다. 여기서 MIDI 음고 하나가 악보상에서 가능한 여러 위치(예: 이명동음, 양손 영역 중복)를 가질 수 있는 모호함은 블롭의 크기를 키우거나 여러 위치에 블롭을 배치함으로써 해결합니다.
정렬 단계에서는 각 악보 이미지 스트립과 전체 MIDI를 해당 스트립의 좌표계에 투영한 부트레그 표현 간의 유사도를 ‘음의 내적(Negative Inner Product)‘으로 정의한 비용 행렬을 계산합니다. 이 메트릭은 두 표현이 일치할 때만 보상을 주고, 불일치 시에는 패널티를 주지 않는 특성이 있어 MIDI에서 의도적으로 생성된 중복 블롭에 강건합니다. 최종적으로 모든 스트립에 대한 비용 행렬 블록을 연결한 후, 표준 DTW 알고리즘을 적용해 최적의 정렬 경로를 찾습니다.
이 방법의 강점은 OMR의 복잡한 인식 과정을 완전히 배제하고, 대신 비교적 단순한 객체(음표 헤드) 검출과 직관적인 이미지 정렬에 집중함으로써 높은 정확도와 안정성을 얻은 데 있습니다. 이는 완전 자동화된 딥러닝 기반 교차 모달 임베딩 접근법이 성숙되기 전까지 유용한 강력한 베이스라인을 제시한다는 점에서 실용적 가치가 큽니다.
댓글 및 학술 토론
Loading comments...
의견 남기기