전조 불변 인터벌 특징 학습

본 논문은 게이트형 자동인코더(GAE)를 이용해 심볼릭 악보와 오디오 스펙트로그램에서 전조에 강인한 인터벌 표현을 무감독으로 학습한다. 전조 불변 매핑 공간을 구축하고, 이를 기반으로 자기유사도 행렬을 만들어 반복 구간 탐지에 적용함으로써 MIREX 반복 테마 탐지 과제에서 경쟁력 있는 성능을 달성한다.

저자: Stefan Lattner, Maarten Grachten, Gerhard Widmer

전조 불변 인터벌 특징 학습
본 논문은 음악 이론에서 핵심적인 상대 피치(인터벌)를 컴퓨터 모델이 효과적으로 활용하도록, 전조에 강인한 인터벌 특징을 무감독 학습하는 새로운 방법을 제시한다. 연구 배경으로는 인간이 멜로디를 절대 피치가 아닌 피치 간 거리와 상승·하강 방향(컨투어)으로 인식한다는 심리학적 근거와, 전조가 음악 형식 인식에서 가장 흔한 변형 중 하나라는 점을 들었다. 기존 접근법은 다성 음악을 단일 음성 스트림으로 분리하거나, 피치와 온셋을 사전에 추출해야 하는 제약이 있었으며, 이는 복잡한 실제 음악에 적용하기 어려웠다. 이를 해결하기 위해 저자들은 게이트형 자동인코더(Gated Autoencoder, GAE)를 선택한다. GAE는 두 입력(과거 n 프레임의 컨텍스트와 현재 프레임)을 각각 선형 변환 행렬 U, V로 매핑한 뒤, 원소곱을 통해 상호작용(팩터) 벡터를 만든다. 이 팩터 벡터는 또 다른 가중치 행렬 W를 거쳐 비선형 활성화(tanh)를 적용해 매핑 코드 m을 생성한다. 매핑 코드는 입력‑목표 관계를 압축한 저차원 표현이며, 역전파를 통해 재구성 손실을 최소화한다. 핵심 기여는 “전조 불변성 강제” 학습 절차이다. 학습 시 각 배치마다 무작위 전조 δ를 선택하고, 원본 입력‑목표 쌍으로부터 얻은 매핑 코드 m을 그대로 사용해 전조된 입력으로부터 전조된 목표를 재구성한다. 재구성 손실을 최소화함으로써, 동일한 인터벌 구조를 가진 모든 전조 버전이 동일한 매핑 코드를 갖도록 강제한다. 이 과정은 데이터 증강과 지도 없는 정규화의 결합으로, 매핑 공간이 전조에 무관한 순수 인터벌 정보를 담게 만든다. 데이터는 두 종류로 구성된다. 심볼릭 데이터는 Mozart/Batik 데이터셋의 13개 피아노 소나타를 60차원 바이너리 피아노롤 형태(1/16박자)로 인코딩했으며, 오디오 데이터는 MAPS 데이터셋의 100개 피아노 곡을 22.05 kHz로 샘플링하고, 상수‑Q 변환(CQT) 스펙트로그램(120빈, 24빈/옥타브)으로 변환했다. 모든 프레임은 평균 0, 분산 1로 정규화하였다. 모델 구조는 컨텍스트 길이 n=8, 팩터 유닛 1024(심볼릭)·512(오디오), 매핑 레이어 128→64 차원으로 설정했다. L2 정규화, 스파시티 제약, 컬럼 노름 제한, 입력 드롭아웃(50%)을 적용했으며, 학습률 1e‑3를 점진적으로 감소시켰다. 학습된 매핑 공간의 유용성을 검증하기 위해 세 가지 실험을 수행했다. 첫째, k‑NN( k=10) 분류기로 인터벌 라벨을 예측했을 때, 매핑 공간에서의 정밀도 91.27 %, 재현율 70.25 %, F1 76.66 %를 기록했으며, 이는 원본 입력 공간(정밀도 65.58 %, 재현율 46.05 %, F1 50.59 %)보다 크게 향상된 결과다. 전조된 데이터에서도 매핑 공간은 높은 성능을 유지해 전조 불변성을 확인했다. 둘째, 매핑 공간 내 모든 인터벌 클러스터의 중심 간 유클리드 거리를 행렬로 시각화했으며, 트라이톤(augmented fourth)과 같은 특이 인터벌이 다른 클러스터와 멀리 떨어져 있음을 확인했다. 이는 음악적 의미가 토폴로지에 반영되었음을 의미한다. 셋째, 매핑 코드를 이용해 전조 불변 자기유사도 행렬을 구성하고, 이를 기반으로 반복 구간 탐지 알고리즘을 적용했다. MIREX “Discovery of Repeated Themes and Sections” 과제에서 심볼릭 데이터와 오디오 데이터 모두 경쟁력 있는 점수를 얻었으며, 특히 오디오에서는 기존 최첨단 방법을 능가하는 성능을 달성했다. 결과적으로, GAE와 전조 불변 학습 절차는 다성 음악에서도 인터벌 관계를 효과적으로 추출하고, 전조에 무관한 저차원 표현을 제공한다는 점에서 의미가 크다. 오디오에 직접 적용함으로써 피치 추출 단계 없이도 전조 불변 특징을 얻을 수 있어, 실시간 커버곡 탐지, 음악 구조 분석, 대규모 음악 검색 등 다양한 MIR 응용에 활용 가능하다. 향후 연구에서는 더 깊은 층을 쌓아 고차 변환(예: 화성 진행)까지 학습하거나, 다른 음악 장르와 비음악 신호에 일반화하는 방안을 모색할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기