경계 인식과 순차 디코딩으로 구현한 심층 기호 화음 인식 모델 BACHI

경계 인식과 순차 디코딩으로 구현한 심층 기호 화음 인식 모델 BACHI
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기호 음악(악보)에서 화음을 자동으로 인식하기 위한 데이터와 모델을 새롭게 제시한다. POP909-CL이라는 인간이 교정한 팝 데이터셋을 구축하고, 화음 경계 탐지와 루트·품질·베이스를 순차적으로 예측하는 두 단계 구조의 BACHI 모델을 설계하였다. 실험 결과, 클래식과 팝 두 영역 모두에서 기존 최첨단 모델들을 능가하는 정확도를 달성했으며, 각 모듈의 기여도를 입증하는 상세한 ablation 연구도 수행하였다.

상세 분석

본 연구는 기호 기반 화음 인식(ACR) 분야에서 두 가지 근본적인 난제를 해결한다. 첫 번째는 데이터 부족 문제다. 기존 기호 데이터는 양이 적고 라벨 품질이 낮아 딥러닝 모델 학습에 한계가 있었다. 이를 극복하기 위해 저자들은 POP909 데이터셋을 전곡 인간 전문가가 직접 검수·수정한 POP909-CL을 공개하였다. 원본 POP909은 비트 정렬 오류(40.6%), 키 서명 누락(14.2%), 박자표 오류(2.6%)가 빈번했으나, 교정 후에는 이러한 오류가 전부 제거돼 고품질 라벨을 제공한다. 또한 클래식 영역에서는 When‑in‑Rome과 DCML을 합쳐 중복을 제거하고, 로마 숫자 표기를 절대 화음 라벨로 변환해 학습용으로 재구성하였다. 이렇게 구축된 데이터는 1500개의 클래식 곡과 909개의 팝 곡으로, 각각 12배 키 변형을 포함한 충분한 규모를 확보한다.

두 번째는 모델 설계의 인간 인지 과정 모방이다. BACHI는 크게 두 단계로 구성된다. ① 경계 탐지 단계에서는 6개의 트랜스포머 인코더 블록을 통해 프레임별 은닉 상태 H를 얻고, MLP와 FiLM(Feature‑wise Linear Modulation)을 이용해 화음 변화 가능성을 나타내는 이진 경계 시퀀스 e를 예측한다. FiLM은 경계 정보를 스케일 γ와 바이어스 β로 변환해 H에 적용함으로써, 이후 단계가 경계 정보를 명시적으로 활용하도록 만든다. ② 순차 디코딩 단계에서는 경계‑조건부 은닉 표현 Z와 주변 프레임(±2)으로 구성된 로컬 컨텍스트 C를 입력으로, 단일 레이어 트랜스포머 디코더가 루트(r), 품질(q), 베이스(b) 세 요소를 동시에 예측한다. 학습 시에는 마스크드 트랜스포머 방식을 적용해 일부 요소를 무작위 마스크하고, 모델이 이를 복원하도록 한다. 추론 단계에서는 각 요소에 대한 소프트맥스 확신도(c) 를 계산하고, 가장 높은 확신도를 가진 요소를 먼저 확정한 뒤 마스크를 해제하는 “confidence‑ordered decoding”을 수행한다. 이 과정은 인간의 ear‑training에서 먼저 눈에 띄는 화음 특징을 파악하고, 이후 세부 정보를 보완하는 전략과 일치한다.

실험 결과는 BACHI가 기존 모델(AugmentedNet, ChordGNN, Harmony Transformer v2)보다 전반적으로 우수함을 보여준다. 클래식 코퍼스에서는 전체 화음 정확도 68.1%를 기록해 가장 높은 점수를 받았으며, 특히 품질 예측에서 79.0%라는 큰 폭의 개선을 보였다. 팝 영역에서도 전체 정확도 82.4%를 달성, 품질과 베이스 정확도에서도 최고 성능을 기록했다. Ablation 연구에서는 (1) 경계 탐지와 순차 디코딩을 모두 제거한 기본 트랜스포머 모델이 전체 정확도 66.8%에 불과했으며, (2) 경계 탐지만 유지한 경우와 순차 디코딩만 유지한 경우 각각 67.6%와 65.6%로, 두 모듈이 상호 보완적으로 작용함을 확인했다. 또한 키 감지를 추가했을 때는 오히려 성능이 소폭 감소했는데, 이는 키 예측 오류가 화음 인식에 부정적 영향을 미칠 수 있음을 시사한다.

또한 혼동 행렬 분석을 통해 팝 데이터에서는 주로 메이저와 마이너 품질 간의 혼동이 주를 이루는 반면, 클래식 데이터에서는 품질 전반에 걸친 분산된 오류가 나타났다. 이는 팝 화성이 상대적으로 제한된 어휘를 사용하고, 클래식은 복잡한 변형과 비표준 화성을 포함한다는 음악학적 사실과 일치한다. 마지막으로 저자들은 BACHI가 인간의 화음 인식 과정을 모델링함으로써, 데이터가 부족한 상황에서도 구조적 사전지식을 활용해 성능을 끌어올릴 수 있음을 강조한다. 향후 연구 방향으로는 멀티‑모달(오디오+기호) 학습, 더 정교한 키·템포 추정 모듈 통합, 그리고 실시간 작곡 보조 시스템에의 적용을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기