귀로 배우는 폴리포닉 악보 전사
본 논문은 폴리포닉 악보 전사 문제를 강화학습(MDP) 프레임워크로 재구성한다. 에이전트가 악기를 가상 환경에서 연주하며 원음과의 음향 유사도를 보상으로 받아, 청음만으로 악보를 추출하도록 학습한다. 정책‑그라디언트와 A2C/A3C 기법을 이용해 에이전트를 훈련하고, 제한된 옥타브와 단일 악기(피아노) 환경에서 초기 실험 결과를 제시한다.
저자: Rainer Kelz, Gerhard Widmer
본 논문은 폴리포닉 악보 전사(polyphonic transcription) 문제를 새로운 관점에서 접근한다. 전통적인 전사 시스템은 스펙트로그램을 프레임 단위로 처리하고, 각 프레임마다 음높이(피치)와 온셋을 이진 벡터 형태로 예측한 뒤, 후처리 과정을 거쳐 최종 노트 객체를 만든다. 이러한 방식은 연속적인 최적화 문제로 전환하기 위해 손실 함수를 부드러운 근사치(예: MSE, BCE)로 대체하고, 임계값을 별도로 튜닝해야 하는 복잡성을 내포한다.
저자들은 이러한 한계를 극복하고자, 인간이 청음 후 악기를 연주하며 원음을 재현하는 과정을 모델링한다. 이를 위해 에이전트(agent)와 환경(environment)이라는 두 개념을 도입하고, 에이전트가 가상 악기를 조작해 원음과의 음향 유사도를 보상으로 받는 강화학습 프레임워크를 설계한다. 구체적으로, 시간 t 에서의 상태 Sₜ는 (i) 현재 및 전후 c 프레임을 포함한 스펙트로그램 매트릭스 Xₜ, (ii) 온셋 감지를 위한 차분 매트릭스 ΔXₜ, (iii) 가상 키보드의 눌림 상태를 나타내는 이진 벡터 k 로 구성된다. 이렇게 설계된 상태는 에이전트가 현재 청음 정보를 충분히 파악하고, 동시에 자신이 현재 어떤 음을 연주하고 있는지를 알 수 있게 한다.
행동 Aₜ는 K 개의 피치를 동시에 선택할 수 있는 이진 벡터 형태이며, 실제 가능한 조합 수 2ᴷ 를 직접 출력하지 않음으로써 차원 폭발 문제를 회피한다. 보상 Rₜ는 원음 스트림과 에이전트가 연주한 스트림 사이의 음향 유사도로 정의된다. 논문에서는 초기 실험을 위해 동일한 사운드폰트를 사용해 입력 음원과 가상 악기의 출력을 생성함으로써, 정확한 F1‑score을 보상 함수에 매핑할 수 있었다.
학습 알고리즘으로는 정책‑그라디언트 기반 REINFORCE를 기본으로, 베이스라인 v̂φ (critic)를 도입한 Actor‑Critic 구조를 사용한다. 특히, 비동기식 A3C와 동기식 A2C를 적용해 여러 에이전트가 병렬로 환경을 탐색하고, 전역 파라미터를 공유·업데이트하도록 설계하였다. 이러한 접근은 샘플 효율성을 높이고, 파라미터 업데이트의 변동성을 감소시킨다.
환경 구현은 OpenAI Gym 인터페이스를 따르며, Fluidsynth와 “Fluid R3 GM” 사운드폰트를 이용해 가상 피아노를 시뮬레이션한다. 입력 음원 역시 동일한 사운드폰트로 생성했으며, 이는 실험 초기 단계에서 보상 설계와 정량적 평가를 용이하게 만든다. 환경은 두 부분으로 나뉜다: “world”는 무작위로 생성된 다성 음을 재생하고, “agent”는 현재 정책에 따라 MIDI 신호를 출력한다. 두 MIDI 스트림을 각각 오디오로 렌더링한 뒤, 오디오 유사도 측정(예: F1‑score, 스펙트로그램 기반 거리)을 통해 보상을 산출한다.
실험 결과는 옥타브 C4‑B4 범위 내에서 단일 피아노 음색을 사용했을 때, 에이전트가 원음과 높은 유사도를 달성함을 보여준다. 다성도가 낮은 경우(예: 1~2음 동시)에는 빠르게 수렴했으며, 다성도가 증가할수록 학습이 느려지고 보상 신호가 약해지는 현상이 관찰되었다. 이는 현재 보상 함수가 복잡한 다성 구조를 충분히 구분하지 못함을 시사한다.
논문은 또한 라벨이 없는 오디오 데이터에 대해 직접적인 상호작용을 통해 학습한다는 점에서 기존 지도학습 기반 전사 시스템과 차별화된다. 라벨이 필요 없으므로 대규모 비지도 음원에 적용 가능하고, 에이전트가 새로운 곡을 들을 때마다 정책을 재조정함으로써 지속적인 성능 향상이 기대된다.
한계점으로는 (1) 동일한 악기·음색 가정이 현실적이지 않음, (2) 다성도가 높은 음악에서 보상 신호가 희미해 학습이 불안정함, (3) 현재는 단일 옥타브와 피아노에 국한된 실험만 수행했다는 점을 들었다. 향후 연구 방향으로는 (i) 다양한 악기와 음색을 포함한 멀티‑도메인 환경 구축, (ii) 보상 함수를 음향 신호의 고차원 특성을 반영하도록 개선, (iii) 인간 연주자와의 협업 학습을 통한 시뮬레이션‑실제 격차 해소, (iv) 실시간 피드백 루프와 온라인 학습을 통한 실시간 전사 시스템 구현 등을 제시한다.
결론적으로, 이 논문은 폴리포닉 전사를 강화학습 문제로 공식화하고, 정책‑그라디언트와 Actor‑Critic 방법을 적용한 최초 사례를 제시함으로써, 라벨이 없는 대규모 음원에 대한 자동 전사 가능성을 열었다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기