디지털 피아노 반주 생성의 새로운 패러다임, D3PIA
초록
D3PIA는 이산 디노이징 확산 모델에 Neighborhood Attention을 결합해, 멜로디와 코드가 포함된 리드 시트를 입력으로 피아노 반주를 생성한다. POP909 데이터셋 실험에서 연속 확산 및 Transformer 기반 모델보다 코드 일치도와 리듬 일관성이 뛰어나며, 모델 파라미터는 2.2 M으로 매우 경량이다.
상세 분석
본 논문은 심볼릭 음악 생성 분야에서 최근 각광받고 있는 확산 모델을 이산 형태로 적용한 첫 사례 중 하나이며, 특히 피아노 반주라는 고차원 다중음성 문제에 초점을 맞추었다. 기존 연속 확산 모델은 피아노 롤을 연속적인 이미지처럼 다루어 정밀한 온/오프 상태를 손실하기 쉬웠지만, D3PIA는 4가지 이산 상태(온셋, 오프, 서스테인, 마스크)를 그대로 유지하면서 확산·역확산 과정을 수행한다. 이는 음악 전사에서 입증된 D3RM 방식을 그대로 차용한 것으로, 노트 삽입·삭제·정제와 같은 편집 연산을 자연스럽게 모델링한다는 장점이 있다.
모델 구조는 크게 두 파트로 나뉜다. 첫 번째는 리드 시트(멜로디+코드)를 88×T 형태의 피아노 롤로 변환해 Neighborhood Attention(N‑A) 기반 인코더가 로컬 정렬 정보를 추출한다. N‑A는 기존 전역 Self‑Attention보다 연산량이 O(N·k)로 감소하면서도, 멜로디와 코드가 시간·음높이 축에서 인접해 있는 특성을 효과적으로 포착한다. 두 번째는 노이즈가 섞인 반주 피아노 롤을 입력받아, AdaLN으로 타임스텝 정보를 조건화한 디노이징 디코더가 이산 상태를 복원한다. 디코더 역시 피치별 양방향 LSTM과 다중 스케일 dilated N‑A 블록을 겹쳐, 장기적 구조와 국소 화성 관계를 동시에 학습한다.
확산 스케줄은 α, β, γ 세 파라미터를 이용해 보존·교란·마스킹 확률을 단계별로 조절한다. 특히 마스킹 확률 γ는 초반에 크게 잡아 노트 존재 여부를 빠르게 추정하고, 후반에 감소시켜 세밀한 음표 정제를 가능하게 한다. 역확산 손실은 변분 바운드(VLB) 형태로 정의되며, 추가적인 어버징‑스테이트(AS) 샘플링을 도입해 최종 단계에서 불필요한 마스크를 제거한다.
실험에서는 POP909를 8:1:1 비율로 분할하고, 8마디 길이의 세그먼트와 ±5~6 반음의 피치 전이로 데이터 증강을 수행했다. 모델은 10개의 N‑A 레이어와 dilation=
댓글 및 학술 토론
Loading comments...
의견 남기기