커버곡 식별을 위한 CNN 기반 음악 표현 학습

본 논문은 커버곡 식별 문제를 해결하기 위해, CQT 기반 입력을 이용한 특수 설계 CNN을 제안한다. 네트워크를 곡 분류 과제로 사전 학습한 뒤, 중간층 300‑차원 벡터를 음악 표현으로 추출하고 코사인 유사도로 검색한다. 키 전이와 템포 변화를 고려한 커널 크기·확장 컨볼루션·수직 스트라이드 1 유지 설계와 템포 변형 데이터 증강을 통해 강인성을 확보하였다. SHS100K, Covers80, Mazurkas, YouTube 등 4개 공개 데…

저자: Zhesong Yu, Xiaoshuo Xu, Xiaoou Chen

커버곡 식별을 위한 CNN 기반 음악 표현 학습
본 연구는 음악 정보 검색(MIR) 분야에서 오래된 과제인 커버곡 식별을 현대 딥러닝 기법으로 재해석한다. 기존 방법들은 주로 크로마 피처와 동적 프로그래밍(DP) 기반 정렬을 이용해 템포와 구조 변화를 보정했지만, 시간 복잡도가 O(N²)로 대규모 데이터에 부적합했다. 최근에는 고정 차원 벡터를 학습하거나 CNN을 이용해 유사도 행렬을 직접 예측하는 시도가 있었지만, 키 전이와 템포 변형에 대한 강인성 확보가 미흡했다. 이에 저자들은 두 가지 핵심 아이디어를 제시한다. 첫째, 커버곡 식별을 “다중 클래스 분류” 문제로 정의하고, 학습된 분류 모델의 중간층 출력을 음악 표현으로 활용한다. 둘째, 커버곡 특성을 반영한 CNN 구조를 설계한다. 입력은 Librosa를 이용해 22 050 Hz로 리샘플링한 오디오에서 12 bins/octave의 CQT를 추출하고, 시간축을 2 Hz 정도로 다운샘플링해 84 × T 형태의 스펙트로그램을 만든다. 네트워크는 총 10개의 컨볼루션 레이어와 4개의 풀링 레이어, 마지막에 어댑티브 맥스 풀링, FC0(512→300), FC1(300→클래스 수)로 구성된다. 초기 레이어의 필터 높이를 12~13으로 설정해 한 레이어당 3옥톤(36반음)까지 포괄하도록 하였으며, 이는 키 전이가 보통 1~2반음 정도 이동한다는 사실에 기반한다. 수직 스트라이드는 항상 1로 유지해 주파수 차원에서 다운샘플링을 하지 않음으로써 피치 정보를 손실 없이 보존한다. 시간적 수용 영역을 넓히기 위해 dilated convolution을 적용했으며, 각 레이어 뒤에 배치 정규화와 ReLU를 삽입해 학습 안정성을 높였다. 학습 단계에서는 각 배치마다 0.7~1.3 범위의 템포 변형을 무작위로 적용해 데이터 증강을 수행한다. 이는 실제 커버곡이 원곡보다 빠르거나 느릴 수 있다는 점을 모델이 사전에 경험하도록 만든다. 손실 함수는 크로스 엔트로피이며, 동일 곡의 다양한 버전을 같은 클래스에 할당해 다중 버전 학습을 가능하게 한다. 훈련이 완료된 후, 쿼리와 데이터베이스 레코드 각각에 대해 FC0 출력 fθ(·)를 추출하고, 코사인 유사도로 매칭한다. 이 방식은 전통적인 DTW 기반 정렬보다 선형 시간 복잡도를 유지하면서도, 멜로디와 하모니 구조를 효과적으로 포착한다. 실험은 네 개의 공개 데이터셋—SHS100K‑TEST(대규모 팝), Covers80(소규모 팝), Mazurkas(클래식), YouTube(다양한 장르)—에서 수행되었다. 평가 지표는 MAP, P@10, MR1, 그리고 쿼리당 평균 처리 시간이다. 결과는 다음과 같다. YouTube 데이터셋에서 MAP 0.917, P@10 0.192, MR1 2.50, 처리 시간 0.04 ms로 기존 최고 성능인 TPPNet(0.859, 0.188, 2.85, 0.04 ms)을 크게 앞섰다. Covers80에서도 MAP 0.840(전:0.744), P@10 0.091(전:0.086) 등 전반적으로 우수했다. Mazurkas에서는 MAP 0.933, P@10 0.956, MR1 2.87을 기록해 클래식 영역에서도 강인함을 입증했다. 대규모 SHS100K‑TEST에서는 MAP 0.655, P@10 0.456, MR1 54.9로 기존 2DFM(0.104)·TPPNet(0.465) 등을 크게 앞섰다. 추가 분석에서는 수직 스트라이드를 2,4,8 등으로 늘렸을 때 MAP이 일관되게 감소함을 확인했다. 이는 키 전이에 민감한 피치 정보를 잃게 되기 때문이다. 또한, 필터 높이를 12~13으로 설정했을 때 가장 높은 정확도를 보였으며, 이는 설계된 수용 영역이 멜로디 구조를 포착하는 데 최적임을 시사한다. 한계점으로는 CQT 기반 전처리가 잡음에 취약할 수 있고, 템포 변형 범위를 0.7~1.3으로 제한했기 때문에 극단적인 템포 차이를 가진 커버에 대한 일반화가 미흡할 수 있다. 또한, 클래스 수가 매우 많아질 경우 소프트맥스 연산 비용이 증가하므로, 샘플링 기반 손실이나 트리 구조 출력으로의 확장이 필요하다. 결론적으로, 이 논문은 커버곡 식별을 위한 CNN 기반 특징 학습에 있어 키 전이와 템포 변형에 특화된 설계와 데이터 증강 전략을 성공적으로 적용했으며, 대규모 실용 환경에서도 높은 정확도와 실시간 수준의 조회 속도를 달성했다. 이러한 접근은 커버곡 검색뿐 아니라 유사 음악 추천, 음악 저작권 관리 등 다양한 MIR 응용에 활용될 가능성을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기