딥 오디오 임베딩을 활용한 음악 구조 분석의 무감독 평가
본 논문은 9개의 공개 사전학습 딥 오디오 모델에서 바 단위 임베딩을 추출하고, Foote, Spectral Clustering, Correlation Block‑Matching 세 가지 무감독 세분화 알고리즘으로 경계 검출 성능을 평가한다. 전통적인 스펙트로그램 기반 특징보다 전반적으로 우수하지만 일관적이지 않으며, CBM이 가장 안정적인 하위 작업으로 나타난다. 또한 평가 지표가 처음·끝 구간을 포함할 경우 인위적으로 상승한다는 점을 지적하…
저자: Axel Marmoret
본 논문은 음악 구조 분석(MSA) 분야에서 최근 각광받고 있는 사전학습 딥 오디오 모델들의 임베딩을 활용해, 완전 무감독 방식으로 경계 검출 성능을 평가한다. 기존 MSA 연구는 크게 두 갈래로 나뉜다. 하나는 전통적인 자기유사성 행렬(SSM) 기반 알고리즘으로, Foote의 체크보드 커널, Spectral Clustering(LSD) 등으로 경계와 반복 구간을 탐지한다. 다른 하나는 대규모 라벨링된 데이터에 의존하는 감독 학습 모델이며, 최근에는 SSL 기반 모델을 선형 프로빙(linear probing) 방식으로 활용해 성능을 끌어올렸다. 그러나 선형 프로빙조차도 라벨에 의존하는 감독 학습의 한계를 완전히 해소하지 못한다.
이에 저자들은 “완전 무감독”이라는 관점을 도입한다. 먼저 9개의 공개 사전학습 오디오 모델을 선정했으며, 이들은 마스크드 어쿠스틱 모델링(AudioMAE, MERT, MusicFM, MuQ, M2D, MATPAC), 신경 오디오 코덱(DAC, CoDiCodec), 그리고 교차모달 대조학습(CLAP) 등 다양한 학습 목표와 아키텍처를 갖는다. 각 모델은 원본 오디오를 바(beat) 단위로 분할하고, 바마다 최종 잠재층 출력을 평균해 고정 차원의 바별 임베딩을 만든다. 바 경계는 Beat This! 모델을 이용해 자동 추출했으며, 이는 서구 대중음악에서 일반적으로 사용되는 메트릭 구조와 일치한다.
바별 임베딩을 얻은 뒤, 두 종류의 유사도(RBF와 코사인)를 이용해 바별 자기유사성 행렬(SSM)을 만든다. 이후 세 가지 무감독 세분화 알고리즘을 적용한다. Foote 알고리즘은 대각선에 체크보드 커널을 슬라이딩해 급격한 변화를 탐지한다. Spectral Clustering(LSD)은 SSM을 그래프의 인접 행렬로 해석하고, 정규화 라플라시안의 고유벡터를 K‑means와 결합해 장기 반복을 포착한다. 가장 혁신적인 CBM은 동적계획법을 통해 블록 구조 점수를 전역 최적화함으로써, 경계 후보를 정밀히 선정한다. CBM은 특히 “패널티 함수”를 비활성화해 구조적 사전 지식을 최소화함으로써, 임베딩 자체의 구분력을 최대한 활용한다.
실험은 세 개의 표준 MSA 벤치마크(RWC‑Pop, SALAMI, Harmonix)를 사용했으며, 각 데이터셋에 대해 0.5 초와 3 초 허용 오차의 F‑measure(F0.5s, F3s)를 주요 지표로 삼았다. 하이퍼파라미터는 각 모델·데이터·알고리즘 조합마다 그리드 탐색을 수행했으며, 최적 조합을 “낙관적 조건”으로 보고한다. 결과는 다음과 같다. (1) 대부분의 딥 임베딩은 전통적인 바별 TF 피처(비딥 베이스라인)보다 높은 F‑score를 기록했지만, 성능 차이는 모델과 데이터셋에 따라 크게 변동한다. (2) CBM이 Foote와 LSD보다 일관적으로 높은 점수를 얻었으며, 특히 복잡한 구조를 가진 Harmonix와 RWC‑Pop에서 두드러졌다. (3) 일부 모델, 예를 들어 CLAP와 CoDiCodec의 연속형 임베딩은 특정 데이터셋에서 기존 TF 피처와 거의 동등하거나 오히려 낮은 성능을 보였다. 이는 사전학습 목표가 음악 구조와 직접적인 연관이 없을 경우, 구조 정보를 충분히 포착하지 못한다는 점을 시사한다.
또한 논문은 평가 과정에서 흔히 간과되는 “트리밍” 문제를 강조한다. 기존 연구는 첫·마지막 구간을 포함한 전체 트랙에 대해 점수를 계산하는데, 이는 실제 음악 구조와 무관한 무음 구간이나 초반·종반의 인위적 경계가 점수를 부풀린다. 저자들은 “트리밍”(첫·마지막 구간 제거)과 “이중 트리밍”(무음 구간 제거 후 트리밍) 두 단계의 전처리를 제안하고, 이를 적용했을 때 F‑score가 평균 5~10% 정도 감소함을 실증한다. 이는 향후 MSA 연구에서 보다 엄격하고 재현 가능한 평가 프로토콜이 필요함을 강력히 시사한다.
결론적으로, 일반 목적의 사전학습 딥 오디오 임베딩은 구조 정보를 어느 정도 내포하고 있어 무감독 경계 검출에 활용 가능하지만, 모델 선택, 임베딩 차원, 데이터 특성 등에 따라 성능 편차가 크다. CBM이 가장 효과적인 하위 세분화 방법이며, 평가 지표의 인위적 상승을 방지하기 위한 트리밍 절차가 필수적이다. 향후 연구는 (1) 구조 특화 SSL 프리텍스트 작업 설계, (2) 멀티스케일 바‑비트 융합, (3) 트리밍을 포함한 표준화된 평가 프레임워크 구축을 통해 무감독 MSA의 한계를 극복할 수 있을 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기