민요 모티프를 위한 분산 벡터 표현

본 논문은 Essen 민요 컬렉션의 멜로디 모티프를 단어와 유사하게 다루어, skip‑gram word2vec 모델과 negative sampling을 이용해 고품질 임베딩을 학습한다. 모티프를 인터벌·방향 문자열로 변환하고, 2‑와 3‑음 길이의 멀티워드로 구성한 뒤 코사인 유사도로 비교한다. 새로운 내재 평가 방법을 제시해, 유사·비유사 모티프 교체가 멜로디 유사도 측정에 미치는 영향을 검증한다. 실험 결과, 임베딩이 멜로디 맥락을 효과적으…

저자: Aitor Arronte-Alvarez, Francisco Gomez-Martin

민요 모티프를 위한 분산 벡터 표현
본 논문은 전통적인 언어 모델링 기법인 skip‑gram word2vec을 음악 분야, 특히 민요의 멜로디 모티프에 적용함으로써 음악적 의미를 벡터 공간에 매핑하는 새로운 접근법을 제시한다. 연구의 배경으로는 단어의 의미를 분산 벡터로 표현하는 분산 의미 모델이 자연어 처리에서 성공을 거두었으며, 음악과 언어가 구조적·인지적 유사성을 공유한다는 인지과학적 근거가 있다. 기존 MIR 연구에서는 주로 복잡한 다성(polyphonic) 음악에 적용했지만, 이 연구는 단일선율(monophonic)인 민요를 대상으로 한다. 먼저, 멜로디를 컴퓨터가 처리하기 쉬운 형태로 변환한다. Essen Folk Song Collection의 Kern 포맷을 Music21 라이브러리로 파싱해 각 음표 사이의 반음 간격을 정수값으로, 상승·하강을 1·0의 부울값으로 인코딩한다. 이렇게 만든 문자열(예: ‘21’, ‘30’, ‘00’)을 기본 토큰으로 삼고, 연속된 2개·3개의 토큰을 하나의 멀티워드로 결합한다. 어휘 구축 시 최소 등장 횟수 기준을 두어 데이터 희소성을 완화하고, 2‑음 멀티워드는 10회 이상, 3‑음 멀티워드는 5회 이상 등장하는 경우만 포함한다. 다음으로, 이 멀티워드 시퀀스를 입력으로 skip‑gram word2vec 모델을 학습한다. 목표는 특정 멀티워드가 주어졌을 때 주변 5개의 멀티워드를 예측하도록 하는 것이며, softmax 계산을 대체하기 위해 negative sampling을 적용한다. 임베딩 차원은 150, 윈도우 크기는 5, 학습 횟수는 표준 설정을 따른다. 학습 결과, 각 멀티워드에 대한 150‑차원 실수 벡터가 얻어지며, 코사인 유사도로 벡터 간 유사성을 측정한다. 임베딩 품질을 평가하기 위해 기존의 언어‑전용 내재 평가(유사도·유추) 대신, 음악적 의미에 맞는 새로운 평가 프레임워크를 설계한다. 구체적으로는 (1) 각 멀티워드에 대해 코사인 유사도가 가장 높은 ‘유사 멀티워드’(mw⁺)와, 임계값 이하인 ‘비유사 멀티워드’(mw⁻)를 선정하고, (2) 원본 멜로디 세그먼트(c)에서 해당 멀티워드를 각각 mw⁺와 mw⁻로 교체해 c⁺와 c⁻를 만든다. (3) 세 가지 멜로디 유사도 지표—인터벌 평균 절대 차이(diff), city‑block 거리(citydist), 상관 거리(corrdist)—를 사용해 (c, c⁺)와 (c, c⁻)의 유사도를 계산한다. 이때 (c, c⁺)의 유사도가 (c, c⁻)보다 현저히 높아야 임베딩이 의미 있는 음악적 컨텍스트를 포착한 것으로 본다. 실험은 Essen 컬렉션 중 유럽 서브셋에서 무작위로 추출한 2,000개의 멜로디 세그먼트를 대상으로 수행되었다. 2‑음 멀티워드와 3‑음 멀티워드 각각에 대해 위 평가를 적용했으며, Wilcoxon 순위합 검정 결과 모든 유사도 지표에서 유의한 차이가 나타났다(p < 0.01). 특히, 2‑음 멀티워드의 경우 평균 diff 값이 6.23에서 7.85로, citydist가 8.84에서 11.21로, corrdist가 0.50에서 2.38로 증가하는 등, 유사 교체가 비유사 교체보다 뚜렷히 높은 유사도를 보였다. 또한, 코사인 유사도로 가장 유사한 멀티워드들을 쿼리했을 때, 실제 멜로디 조각들에서 동일한 인터벌 패턴(예: 00‑20, 20‑00)이 반복되는 경우가 많이 발견되었다. 이는 학습된 벡터가 실제 음악적 맥락을 반영하고 있음을 시각적으로 확인시켜준다. 논문의 결론에서는 (1) skip‑gram word2vec이 단일선율 민요의 모티프를 효과적으로 임베딩할 수 있음을, (2) 코사인 유사도와 제안된 멜로디 유사도 평가가 모티프 간 관계를 정량화하는 데 유용함을 강조한다. 한편, 대규모 코퍼스에서 불필요한 모티프가 과다하게 생성될 위험과, 빈도 기반 어휘 필터링으로 인해 희귀하지만 중요한 변형이 누락될 수 있다는 한계를 언급한다. 향후 연구 방향으로는 (a) 조성, 리듬, 구문적 구조 등 음악학적 기준을 활용한 어휘 정제, (b) 인간 청취자를 통한 인지적 유사도 평가, (c) 보다 큰 다문화 민요 데이터베이스를 활용한 일반화 가능성 검증 등을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기