잠재표현 분리로 구현하는 딥 뮤직 유추
초록
본 논문은 피치와 리듬을 명시적으로 분리하는 조건부 변분 오토인코더(EC²‑VAE)를 제안한다. 8박자 멜로디와 코드를 입력으로 하여, 피치와 리듬을 각각 독립된 잠재 벡터(zₚ, zᵣ)로 인코딩하고, 중간 리듬 디코더를 통해 리듬 정보를 강제 정합시킨다. 이를 통해 “어떤 멜로디를 다른 피치 컨투어·리듬·코드와 결합하면 어떨까?”라는 ‘what‑if’ 유추를 가능하게 하며, 객관적 변동량 측정과 주관적 청취 실험을 통해 기존 베이스라인보다 우수함을 입증한다.
상세 분석
이 연구는 음악 생성 분야에서 ‘유추(analogy)’라는 고차원 개념을 구현하기 위해, 고수준 음악 추상화(피치 컨투어, 리듬 패턴, 코드 진행)를 명시적으로 분리(disentangle)하는 방법론을 제시한다. 핵심 모델은 Explicitly‑Constrained Conditional Variational Auto‑Encoder(EC²‑VAE)이며, 기존의 순차 VAE 구조에 두 가지 혁신을 추가한다. 첫째, 디코더의 중간 단계에 리듬 전용 서브디코더를 배치해, 잠재 변수 z를 zᵣ(리듬)와 zₚ(피치)로 명시적으로 구분한다. 이 서브디코더는 리듬 특성(온셋·홀드·레스트)을 직접 예측하도록 학습되며, 교차 엔트로피 손실을 통해 리듬 정보가 zᵣ에 집중되도록 강제한다. 둘째, 코드 진행을 조건(condition)으로 제공함으로써, 피치와 리듬이 코드와 독립적으로 학습되게 한다. 코드는 인코더와 디코더 모두에 멀티‑핫 형태의 크로마그램으로 입력되어, zₚ가 코드에 대한 정보를 저장하지 않게 만든다. 이렇게 하면 zₚ는 순수히 멜로디의 피치 컨투어만을 담게 되고, zᵣ는 리듬 패턴만을 담는다.
모델의 학습 목표는 기존 조건부 VAE의 ELBO에 리듬 재구성 손실을 추가한 형태이다. 논문은 이 추가 손실이 ELBO의 하한을 낮추지만, 완전한 리듬‑피치 분리가 이루어질 경우 원래 ELBO와 동일한 값이 될 수 있음을 수식적으로 증명한다. 즉, 명시적 제약이 재구성 성능을 크게 희생하지 않으며, 오히려 잠재 공간의 해석 가능성을 크게 향상시킨다.
평가 방법으로는 두 가지 객관적 지표와 주관적 청취 실험을 사용한다. 첫 번째는 피치 전이(transposition) 후 zₚ와 zᵣ의 L1 변화량을 시각화해, 피치 변동이 zₚ에 크게, zᵣ에는 거의 영향을 주지 않음을 확인한다. 두 번째는 ‘증강 기반 쿼리(augmentation‑based query)’ 방식을 차용해, 피치만 변형하거나 리듬만 변형한 데이터를 여러 번 생성한 뒤, 각 변형이 잠재 차원에 미치는 분산을 측정한다. 가장 큰 분산을 보인 차원들을 결과 집합으로 삼아 정밀도·재현율·F‑score를 계산했으며, EC²‑VAE는 0.88의 높은 F‑score를 기록해 무작위 베이스라인(0.5)보다 현저히 우수함을 보였다.
‘what‑if’ 유추 사례에서는 서로 다른 멜로디의 zₚ와 zᵣ를 교환하거나 선형 보간(interpolation)함으로써, 기존 멜로디에 새로운 피치 컨투어·리듬·코드 조합을 적용한 결과를 시연한다. 청취자 설문에서는 생성된 음악이 원본과 비교해 자연스러움과 창의성 모두에서 높은 점수를 받았으며, 특히 피치와 리듬이 독립적으로 변형된 경우에도 음악적 일관성이 유지된다는 점이 강조되었다.
한계점으로는 8박자 고정 길이와 4분음표 단위의 제한, 그리고 코드 진행을 조건으로만 사용해 코드 자체를 생성하거나 변형하는 능력은 배제된다는 점을 들 수 있다. 또한 리듬 특성을 3‑차원 원-핫으로 단순화함으로써 복잡한 다중‑음표 리듬이나 장단점 변화를 충분히 포착하지 못한다는 점도 언급된다. 향후 연구에서는 가변 길이 시퀀스, 다중 트랙(베이스·드럼 등) 및 코드 진행 자체의 생성까지 확장하는 방향이 제시된다.
전반적으로 EC²‑VAE는 ‘음악 유추’를 구현하기 위한 잠재표현 분리의 새로운 패러다임을 제시하며, 명시적 제약을 통해 해석 가능하고 제어 가능한 음악 생성 모델을 구축하는 데 성공하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기