피아노 다이내믹과 메트릭 구조를 동시에 추정하는 초소형 멀티태스크 멀티스케일 네트워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 피아노 연주 음원을 입력으로, 다이내믹 레벨·다이내믹 변곡점·비트·다운비트를 하나의 공유 잠재 표현에서 동시에 예측하는 멀티태스크 모델을 제안한다. 입력 특징으로 Bark‑scale specific loudness(BSSL)를 사용해 파라미터 수를 14.7 M에서 0.5 M으로 대폭 축소했으며, 60 초 길이의 시퀀스를 처리해 기존 비트 트래킹보다 두 배 긴 컨텍스트를 활용한다. MazurkaBL 데이터셋에서 동적 레벨, 변곡점, 비트, 다운비트 모두 기존 최고 성능을 넘어서는 F1 점수를 기록하였다.
상세 분석
이 연구는 피아노 다이내믹 추정이라는 전통적으로 어려운 과제를 멀티태스크 학습으로 재구성한 점이 가장 큰 혁신이다. 다이내믹 레벨, 변곡점, 비트, 다운비트 네 가지 목표를 하나의 공유 인코더에 매핑함으로써, 서로 다른 시간 해상도 요구를 동시에 만족한다. 핵심 인코더는 기존 멀티스케일 네트워크
댓글 및 학술 토론
Loading comments...
의견 남기기