다성 음악 작곡을 위한 결합 순환 모델

본 논문은 다성(polyphonic) 악보를 동시에 진행되는 여러 목소리(voice)로 바라보고, 각 목소리를 순차적으로 예측하는 새로운 조건부 확률 분해 방식을 제안한다. 래스터 방식과 달리 런‑길이 인코딩을 이용해 시간 해상도를 유지하면서도 예측 횟수를 크게 줄인다. 제안 모델은 단일 목소리와 다목소리 두 과제에 대해 KernScores 데이터셋(2,300곡)으로 학습·평가했으며, 교차 엔트로피(비트/박자) 기준에서 기존 방법보다 효율적이고…

저자: John Thickstun, Zaid Harchaoui, Dean P. Foster

다성 음악 작곡을 위한 결합 순환 모델
본 논문은 다성(polyphonic) 음악 작곡을 위한 새로운 확률 모델링 프레임워크를 제시한다. 저자들은 먼저 음악 점수를 “목소리(voice)들의 동시 진행되는 시퀀스”로 정의하고, 이를 기반으로 여러 가지 확률 분해 방식을 검토한다. 전통적인 래스터화(raster) 방식은 일정한 시간 간격 Δ(예: 1/48 박자)로 점수를 이진 행렬 형태로 샘플링하고, 각 시간 슬라이스를 독립적으로 예측한다. 이 방법은 시간 해상도가 높을수록 차원이 급증해 학습·생성 비용이 크게 늘어나며, 실제 음악의 리듬적 복잡성을 충분히 표현하지 못한다는 단점이 있다. 이를 해결하기 위해 저자들은 “목소리 기반 순차적 분해”를 도입한다. 각 목소리는 자체적인 변화점(cᵥ₀,…,cᵥ_{Lᵥ})을 갖고, 변화점 사이의 지속시간을 런‑길이 인코딩(D)으로, 해당 시점에 시작되는 피치를 온셋 비트(ONSET)로 표현한다. 이렇게 하면 한 목소리당 평균 1.25 노트/박자, 전체 다목소리 악보는 약 5 노트/박자 정도의 예측만 필요하게 된다. 다음 단계에서는 여러 목소리를 동시에 생성하기 위한 “전체 순차적 인코딩”을 정의한다. 모든 변화점을 전체 시간 순서에 따라 정렬하고, 가장 뒤처진 목소리부터 차례로 예측한다. 이 과정은 각 목소리가 서로 한 노트값 앞서지 않도록 보장하며, 생성 과정이 “ragged frontier” 형태를 띤다. 수학적으로는 전체 점수를 s₁,…,s_L 로 표현하고, 각 s_k에 대해 지속시간 d_k와 피치 온셋 p_k를 조건부 확률 q(s_k,0|s_{

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기