고해상도 피아노 서스테인 페달 깊이 추정의 음악적 평가 지표
초록
본 논문은 기존의 프레임 단위 오차 지표만으로는 피아노 서스테인 페달 깊이 추정 모델의 음악적 품질을 충분히 평가할 수 없다는 점을 지적하고, 액션‑레벨(press/hold/release)과 제스처‑레벨(press‑release 사이클)의 두 가지 음악적 차원을 추가한 평가 프레임워크를 제안한다. 동일한 트랜스포머 기반 아키텍처에 대해 오디오 전용, MIDI 정보를 결합한 모델, 그리고 이진 목표로 학습한 모델을 비교한 결과, MIDI‑인포드 모델이 액션·제스처 수준에서 현저히 우수함을 확인하였다.
상세 분석
이 논문은 피아노 서스테인 페달을 연속적인 제어 신호로 다루는 최신 연구 흐름에 발맞추어, 평가 방법론 자체를 재구성한다는 점에서 의미가 크다. 기존 연구에서는 주로 MSE, MAE, 프레임 단위 F1 등 전통적인 회귀·분류 지표에 의존했으며, 이는 페달 동작의 미세한 타이밍 오차나 작은 진동을 과도하게 벌점으로 처리한다. 저자는 이러한 한계를 ‘음악적 의미’를 기준으로 세 단계로 세분화한다. 첫 번째는 액션 레벨 평가로, 연속적인 페달 곡선을 기울기 기반 슬라이딩 윈도우 분석을 통해 press, hold, release 세 가지 상태로 변환하고, 이를 3‑class 분류 문제로 전환해 정밀도·재현율·F1을 산출한다. 이 과정에서 프레임마다 동일한 가중치를 부여하지 않고, 경계 프레임에 더 큰 의미를 부여함으로써 실제 연주에서 중요한 페달 전환을 정확히 포착한다. 두 번째는 제스처 레벨 평가이다. 페달이 일정 임계값(ε)을 초과한 순간부터 다시 하강할 때까지를 하나의 제스처로 정의하고, 제스처를 ‘Pinnacle’, ‘Hill’, ‘Highland’, ‘Mountain’ 네 가지 형태로 분류한다. 형태 구분은 지속 시간과 최대 깊이 비율(r)이라는 두 축을 이용해 수행되며, 이는 음악학적 서술(예: 짧은 강조, 장시간 지속, 색채 변조 등)과 직접 연결된다. 형태 유사도 평가는 (i) 저주파 성분만을 남긴 푸리에 디스크립터 기반 MSE와 (ii) 5‑point(시작, 종료, 평균, 중앙값, 최대값) 특징을 이용한 가중 평균 MSE 두 가지 방법을 병행한다. 이러한 다중 스케일 평가 체계는 모델이 ‘얼마나 정확히 깊이를 예측했는가’를 넘어서 ‘얼마나 음악적으로 타당한 페달 동작을 재현했는가’를 측정한다. 실험에서는 MAESTRO v3.0 데이터셋을 사용해 동일한 트랜스포머 구조에 세 가지 변형을 적용했다. 오디오 전용 모델은 기본적인 프레임 수준 성능을 보였지만, 액션·제스처 지표에서는 비교적 낮은 점수를 기록했다. 이진 목표(바이너리) 모델은 프레임 수준에서는 약간 떨어지지만, 액션 전환 감지와 제스처 형태 재현에서 가장 큰 손실을 보였다. 반면 MIDI 정보를 추가한 모델은 프레임 수준에서도 가장 좋은 MSE/MAE를 기록했을 뿐 아니라, 액션 레벨에서 macro‑F1이 0.6964, weighted‑F1이 0.8859로 현저히 우수했으며, 제스처 레벨에서도 모든 네 형태에 대해 푸리에 기반 MSE가 0.0457~0.0518 수준으로 크게 개선되었다. 이는 MIDI‑인포드 모델이 악보와 연주 정보(음표, 강도)를 활용해 페달 동작의 시점과 형태를 더 정확히 예측한다는 것을 의미한다. 또한, 프레임 수준 지표만으로는 드러나지 않던 ‘긴 Highland·Mountain 제스처의 미세한 변조’를 포착하는 데도 성공했다. 논문은 평가 프레임워크 자체가 모델 개발 단계에서 피드백을 제공할 수 있음을 강조한다. 예를 들어, 액션 레벨에서 hold 구간의 재현률이 낮다면 모델이 페달 지속을 과소평가하고 있음을 알 수 있고, 제스처 레벨에서 Mountain 형태의 MSE가 높다면 장시간 페달 변조를 더 정교히 모델링할 필요가 있음을 시사한다. 이러한 진단 가능성은 향후 페달 추정 모델을 실제 음악 교육·연주 지원 시스템에 적용할 때 중요한 설계 지표가 될 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기