음악 작곡가 분류를 위한 정보량 기반 유사도 측정법

** 본 논문은 기존 압축 기반 거리(CDM)의 한계를 극복하고, 작곡가 추정 과제에 적용할 수 있는 정보량(Information Quantity) 기반 유사도 측정 방법을 제안한다. 문자열 형태로 변환된 피아노 악보를 그룹화하고, 접미사 배열을 이용해 모든 부분 문자열의 출현 빈도를 추정한 뒤, 동적 프로그래밍으로 최소 정보량을 계산한다. 실험 결과 5명 작곡가의 75개 악보에 대해 제안 방법이 55개의 정답을 맞혀 CDM(41)·오프셋 …

저자: Ayaka Takamoto, Mitsuo Yoshida, Kyoji Umemura

음악 작곡가 분류를 위한 정보량 기반 유사도 측정법
** 본 논문은 작곡가 추정이라는 음악 분류 과제에 압축 기반 거리(CDM)의 대안으로 정보량(Information Quantity, IQ) 기반 유사도 측정 방법을 제안한다. 기존 CDM은 두 악보를 문자열로 변환한 뒤, 압축 프로그램을 이용해 압축된 파일 크기를 비교함으로써 유사도를 정의한다. 압축 프로그램에 따라 결과가 달라지고, 모든 학습 샘플과의 쌍 비교가 필요해 계산량이 급증한다는 문제가 있다. 이를 해결하기 위해 저자들은 다음과 같은 절차를 설계하였다. 1. **문자열 변환** 피아노 악보를 0/1 문자열로 변환한다. 88개의 피아노 키와 시간 스텝을 곱한 인덱스를 사용해, 해당 위치에 음이 있으면 ‘1’, 없으면 ‘0’으로 표기한다. 이렇게 하면 악보 전체를 하나의 이진 문자열로 표현할 수 있다. 2. **그룹화 및 사전 처리** 같은 작곡가에 속하는 모든 악보를 하나의 긴 문자열로 결합한다. 이를 ‘그룹 문자열’이라 부른다. 각 그룹 문자열에 대해 접미사 배열(suffix array) 혹은 접미사 트리를 구축한다. 이 자료구조는 어떤 부분 문자열 t가 그룹 문자열에 몇 번 등장했는지를 O(1) 시간에 조회할 수 있게 해준다. 3. **부분 문자열 확률 추정** 부분 문자열 t의 등장 빈도 f(t)를 구하고, 최대우도추정(MLE) 방식으로 확률을 P(t)= (f(t)−1) / (|G|−|t|+1) 로 계산한다. 여기서 f(t)−1 은 빈도 0인 경우 로그가 무한대로 발산하는 것을 방지하기 위한 스무딩이다. 4. **정보량 계산** 문자열 S를 여러 부분 문자열 t₁,…,t_k 로 분할했을 때, 각 부분 문자열에 대한 정보량은 -log₂P(t_i) 이다. 전체 정보량 I_s(S) 는 Σ -log₂P(t_i) 로 정의한다. 가능한 모든 분할(2^{|S|−1}가지) 중 최소값을 찾는 것이 목표이며, 동적 프로그래밍을 이용해 O(|S|²) 시간에 최적값을 구한다. 5. **유사도 및 추정** 테스트 악보 x에 대해 각 작곡가 그룹 G_i (i=1…c) 에 대해 I_s(x|G_i)를 계산한다. 가장 작은 정보량을 가진 작곡가를 x의 추정 작곡가로 선택한다. 이 과정은 그룹 수 c에 비례할 뿐, 각 그룹에 포함된 악보 수 g에는 의존하지 않는다. 6. **복잡도 분석** - 사전 처리: O(g·l) (g는 작곡가당 악보 수, l은 문자열 길이) - 테스트 단계: 각 작곡가당 O(l²) → 전체 O(c·l²) - 전체 복잡도: O(c·g·l + n·c·l²) (n은 테스트 악보 수) 반면 CDM은 O(n·c·g·l) 로, g가 커질수록 비용이 급증한다. 따라서 대규모 학습 데이터에 대해 제안 방법이 확장성이 뛰어나다. 7. **실험 설정** - 데이터: 바흐, 쇼팽, 드뷔시, 모차르트, 사티 각 15곡, 총 75곡. - 평가: 1-Leave-Out 방식으로 각 악보를 테스트 샘플로 사용하고, 나머지를 그룹에 포함시켜 정보량을 계산. - 비교 대상: 원본 CDM, 오프셋 CDM(압축 파일 크기에 보정값을 더한 방식). 8. **결과** - 제안 방법: 55/75 (73.3%) 정확도 - 원본 CDM: 41/75 (54.7%) 정확도 - 오프셋 CDM: 48/75 (64.0%) 정확도 - McNemar 검정 결과, 제안 방법이 CDM 대비 p<0.01, 오프셋 CDM 대비 p<0.01 로 통계적으로 유의미함을 확인. 9. **논의 및 한계** - **계산 효율성**: 현재 구현은 문자열 길이가 10,000자를 초과하면 O(l²) 연산이 실제 실행 시간에서 병목이 된다. 저자들은 부분 문자열 집합을 제한하거나, 더 효율적인 DP 기법을 도입해 개선 가능성을 제시한다. - **음악적 의미**: 최소 정보량을 구하기 위한 분할이 실제 음악적 구조(멜로디, 리듬)와 얼마나 일치하는지는 추가적인 음악학적 검증이 필요하다. - **데이터 규모**: 75곡이라는 제한된 데이터셋으로만 검증했으며, 다른 장르, 악기, 대규모 데이터에 대한 일반화 검증이 부족하다. - **그룹 결합 효과**: 여러 악보를 하나의 문자열로 결합하면 개별 악보 고유의 희귀 모티프가 희석될 위험이 있다. 향후에는 가중치 부여나 계층적 모델링이 필요할 수 있다. 10. **결론** 제안된 정보량 기반 유사도 측정은 압축 프로그램 의존성을 없애 재현성을 높이고, 학습 데이터 수에 대한 계산 복잡도 독립성을 확보함으로써 CDM의 확장성 문제를 해결한다. 실험 결과는 정확도와 통계적 유의성 면에서 기존 방법을 능가한다. 다만 현재 구현은 문자열 길이에 민감하고, 음악적 해석과의 연계가 부족하므로, 효율성 개선, 대규모 데이터 적용, 음악학적 해석을 포함한 후속 연구가 필요하다. **

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기