비트와 멜로디를 잇는 하이브리드 작곡 시스템

비트와 멜로디를 잇는 하이브리드 작곡 시스템
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 팝 음악 작곡을 위해 규칙 기반의 시간 생성 문법과 조건부 변분 순환 오토인코더를 결합한 하이브리드 모델을 제안한다. 문법이 전체 구조와 화성 진행을 만들고, 오토인코더가 해당 화성에 맞는 멜로디를 생성·변형한다. 10,000개의 MIDI 파일을 이용해 학습했으며, 기존 상용·학술 시스템 대비 음악적 품질이 우수함을 실험으로 입증한다.

상세 분석

이 연구는 두 가지 핵심 문제를 동시에 해결하려는 시도로 눈에 띈다. 첫째, 기존 규칙 기반 작곡기가 구조적 일관성은 제공하지만 멜로디가 기계적이라는 한계가 있다. 둘째, 순수 딥러닝 기반 모델은 멜로디의 장기적 반복 구조와 테마 변형을 구현하기 어렵다. 저자들은 이를 보완하기 위해 ‘시간 생성 문법(temporal generative grammar)’을 도입해 곡의 섹션·구조·코드 진행을 명시적으로 설계한다. 이 문법은 AA′B A와 같은 전통적인 팝 곡형식을 기호화하고, 심볼 바인딩을 통해 동일 섹션의 재현과 변형을 확률적 가우시안 교란으로 구현한다. 이렇게 얻어진 화성 진행은 이후 멜로디 생성 단계의 조건으로 사용된다.

멜로디 생성에는 조건부 변분 순환 오토인코더(CVRAE)가 활용된다. 입력 멜로디는 16분음표 단위로 양자화되고, 음정은 톤 중심(톤)으로부터 –16~+16 반음 범위의 원-핫 벡터와 ‘attack’ 채널로 표현된다. 코드는 한 마디당 최대 두 개까지 허용되며, 스케일도와 코드 품질을 별도 이진 채널로 인코딩한다. 인코더‑디코더는 각각 12개의 순환 레이어(총 24개)로 구성되고, 각 3번째 레이어마다 잔차 연결(residual skip connection)을 삽입해 학습 안정성을 높였다. 또한, GRU 셀과 ELU 활성함수를 채택해 연산 효율과 수렴 속도를 개선하였다.

변분 요소는 잠재 공간을 표준 정규분포(N(0, I))에 맞추는 KL 발산 항을 통해 구현했으며, KL warm‑up을 시그모이드 스케줄링으로 조정해 초기 재구성 손실을 최소화하였다. 이렇게 학습된 모델은 잠재 공간에서 임의 샘플을 추출하고, 동일한 화성 진행을 조건으로 제공함으로써 새로운 멜로디를 생성한다. 중요한 점은 멜로디의 리듬·컨투어는 유지하면서 화성만 교체할 수 있는 ‘reharmonization’ 능력이다. 이는 기존 변분 오토인코더가 제공하지 못했던 음악적 유연성을 제공한다.

실험에서는 10,000개의 MIDI 파일(약 1.9 × 10⁶ 마디)에서 8마디 구간을 추출해 학습했으며, 멜로디 트랙과 코드 트랙을 자동 식별하기 위해 루브릭 점수와 엔트로피 점수를 결합한 두 단계 평가 방식을 사용했다. 인간 청취자 평가와 기존 상용 서비스(Jukedeck, Amper)와의 비교 결과, 제안 시스템이 생성한 곡은 구조적 일관성, 멜로디 다양성, 화성 적합성 측면에서 우수한 평가를 받았다.

핵심 인사이트는 (1) 화성 진행을 먼저 생성하고 이를 조건으로 멜로디를 학습·생성함으로써 인간 작곡 과정과 유사한 파이프라인을 구현했다는 점, (2) 변분 오토인코더와 순환 신경망을 결합해 잠재 공간을 확률적으로 모델링함으로써 새로운 멜로디 샘플링이 가능해졌다는 점, (3) 시간 생성 문법을 통해 고수준 구조와 반복·변형 메커니즘을 명시적으로 제어함으로써 장기적 테마 재현을 달성했다는 점이다. 이러한 설계는 음악‑as‑a‑service(MaaS) 환경에서 자동 작곡의 품질을 크게 향상시킬 수 있는 실용적 로드맵을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기