음악 요약을 위한 일반 요약 알고리즘 적용 연구
초록
본 논문은 텍스트·음성 분야에서 성공적으로 사용된 일반 요약 알고리즘(MMR, LexRank, LSA)을 음악에 적용하고, 요약된 30초 클립이 포르투갈 전통 장르인 파도(Fado) 분류기의 정확도를 향상시키는지를 실험적으로 검증한다. 고정 길이 프레임을 “단어”로, 일정 프레임 수를 “문장”으로 매핑한 뒤 K‑Means 기반 어휘를 구축하고, 각 알고리즘을 적용해 요약을 생성한다. 두 개의 500곡 데이터셋(각 250곡 파도, 250곡 비파도)에서 5‑fold 교차 검증을 수행했으며, MMR·LexRank·LSA가 특정 파라미터 설정에서 기존의 앞·중·뒤 30초 절단보다 높은 분류 정확도를 달성함을 보였다.
상세 분석
이 연구는 기존 텍스트 요약 기법을 음악 신호에 직접 적용하기 위한 구체적인 파이프라인을 제시한다. 먼저 원본 오디오를 MFCC와 RMS, 고·저주파 리듬 특징을 포함한 32차원 피처 벡터로 변환한다. 이후 각 프레임을 K‑Means 클러스터링을 통해 “단어”로 정의하고, 연속된 5개의 단어를 하나의 “문장”으로 구성한다. 이렇게 형성된 문장 집합은 전통적인 텍스트 요약 알고리즘이 요구하는 이산적 표현과 동일한 형태가 된다.
MMR은 문장 간 유사도와 현재 요약에 포함된 문장과의 차이를 λ 파라미터로 가중합해, 가장 높은 점수를 가진 문장을 순차적으로 선택한다. 본 논문에서는 λ 값을 0.3, 0.5, 0.7로 변형하고, 가중치 방식으로 원시 카운트, 바이너리, TF‑IDF, 로그 TF‑IDF(‘dampened’)를 시험했다. LexRank는 코사인 유사도로 구축된 문장 그래프에 페이지랭크 방식을 적용해 중심 문장을 추출한다. 감쇠 계수 d=0.85와 수렴 임계값 0.0001을 사용했으며, 엣지 존재 여부는 유사도 임계값에 따라 결정한다. LSA는 문장‑단어 행렬에 특이값 분해(SVD)를 수행해 상위 K개의 토픽을 선택하고, 각 토픽에 대한 기여도가 높은 문장을 요약에 포함한다. K는 첫 번째 특이값의 절반 이하가 되는 지점까지 확장하였다.
요약 성능 평가는 파도 장르 분류기에 적용된 결과로 측정한다. 분류기는 32차원 피처를 입력받아 선형 SVM으로 학습되며, 30초 길이의 클립을 입력으로 사용한다. 기준선은 곡의 시작·중간·끝 30초를 각각 사용한 경우이며, 요약 클립은 동일한 30초 길이로 제한한다. 실험 결과, MMR(λ=0.5, TF‑IDF)과 LexRank, LSA는 모두 기준선보다 평균 2~4% 높은 정확도를 기록했다. 특히 LSA는 요약된 클립이 원곡의 구조적 다양성을 유지하면서도 핵심 주제(멜로디·리듬) 정보를 보존하는 경향을 보여, 텍스트 요약이 음악 신호에도 유사한 효과를 낼 수 있음을 입증한다.
하지만 몇 가지 한계점도 존재한다. 첫째, 고정 길이 “문장” 정의가 음악적 구문(구절, 코러스 등)과 일치하지 않아 인간 청취자 관점에서는 부자연스러운 요약이 될 수 있다. 둘째, K‑Means 기반 어휘 구축 과정에서 클러스터 수를 어떻게 설정하느냐에 따라 요약 품질이 크게 변동한다는 점이 실험에 충분히 반영되지 않았다. 셋째, 평가가 오직 파도 분류 성능에 국한되어 있어, 다른 장르나 다른 다운스트림 작업(예: 음악 검색, 감정 인식)에서의 일반화 가능성은 검증되지 않았다. 향후 연구에서는 음악 구조를 고려한 동적 문장 구분, 클러스터링 파라미터 자동 최적화, 그리고 인간 청취자 설문을 통한 주관적 품질 평가를 포함시켜야 할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기