시퀀스 기반 설명 가능한 하이브리드 음악 추천 시스템

본 논문은 MIDI 파일을 다차원 시계열로 변환한 뒤, 순환 신경망(RNN/GRU)으로 학습한 콘텐츠 기반 시퀀스 모델과 행렬 분해 기반 협업 필터링을 결합한 하이브리드 추천기인 SeER를 제안한다. SeER는 사용자와 곡의 잠재 벡터를 내적하여 평점을 예측하고, 10초 길이의 MIDI 세그먼트를 전방 전파하여 가장 높은 예측 점수를 받은 구간을 설명으로 제공한다. 실험 결과, 기존 협업 필터링·딥러닝 기반 베이스라인 대비 추천 정확도가 향상되…

저자: Khalil Damak, Olfa Nasraoui

시퀀스 기반 설명 가능한 하이브리드 음악 추천 시스템
본 논문은 음악 스트리밍 서비스에서 사용자 맞춤형 곡 추천과 동시에 설명 가능성을 제공하는 새로운 하이브리드 모델인 SeER(Sequence‑based Explainable Recommender)를 제안한다. 기존 연구는 크게 두 갈래로 나뉜다. 하나는 행렬 분해 기반 협업 필터링(MF)으로, 사용자‑아이템 상호작용 행렬을 저차원 잠재 공간으로 분해해 유사성을 이용한다. 다른 하나는 딥러닝 기반 콘텐츠 필터링이나 시퀀스 모델을 활용해 메타데이터나 사용자 행동 시퀀스를 학습한다. 그러나 이들 접근법은 (1) 곡 자체의 음악적 구조를 직접 활용하지 못하고, (2) 설명이 텍스트 혹은 특성 중요도 수준에 머물러 실제 청취 경험과 연결되지 않으며, (3) 새로운 곡(콜드 스타트)에서는 충분한 정보를 제공하지 못한다는 한계가 있다. SeER는 이러한 문제를 해결하기 위해 다음과 같은 설계를 채택한다. 먼저, 곡의 MIDI 파일을 “Note‑on” 이벤트만 추출해 16채널 × 노트/벨로시티 32특성으로 구성된 다차원 시계열로 변환한다. 각 곡은 평균 2,600시간 단계로 정규화되어 미니배치 학습이 가능하도록 한다. 변환된 시계열은 플랫하게 저장된 ‘곡 조회 행렬(S)’에 보관된다. 두 번째로, 사용자‑곡 평점 예측은 전통적인 MF와 동일한 차원의 사용자 잠재 벡터(U)와, 순환 신경망(또는 GRU) 마지막 레이어의 은닉 상태(h) 간의 내적으로 수행한다. 은닉 상태는 곡 시계열을 입력으로 하여 학습되며, 차원을 사용자 잠재 벡터와 맞춤으로 설계해 두 벡터의 내적이 바로 예측 평점이 된다. 손실 함수는 평균제곱오차(MSE)이며, 미니배치 경사하강법으로 U와 시퀀스 모델 파라미터를 동시에 업데이트한다. 설명 생성 메커니즘은 “Segment Forward Propagation Explainability”라 명명된 절차이다. 추천된 곡을 10초 길이, 1초 간격으로 슬라이딩 윈도우를 적용해 여러 세그먼트(x_s,k)를 만든 뒤, 각 세그먼트를 동일 모델에 입력해 사용자‑세그먼트 평점 ˆr_kus를 예측한다. 가장 높은 평점을 받은 세그먼트를 사용자에게 제공함으로써, “이 곡의 어느 부분이 당신에게 가장 매력적인가?”라는 직관적인 설명을 만든다. 실험 데이터는 Million Song Dataset의 Echo Nest Taste Profile와 Lakh MIDI를 교집합해 32,180명·6,442곡·941,044개의 상호작용 데이터를 구축하였다. 플레이 카운트를 5점 척도로 정규화해 평점 라벨을 만들고, 사용자당 최소 20곡 이상 청취한 경우만 남겨 희소도를 99.54%로 유지했다. 베이스라인으로는 전통적인 MF, 딥러닝 기반 콘텐츠 필터링, 그리고 기존 하이브리드 모델들을 사용했으며, 정밀도·재현율·NDCG 등 순위 기반 지표에서 SeER가 일관적으로 우수함을 확인했다. 특히 아이템 콜드 스타트(새 곡) 상황에서 MIDI 기반 시퀀스 모델이 곡의 구조적 특성을 직접 학습하므로, 기존 CF가 전혀 정보를 갖지 못하는 경우에도 의미 있는 평점 예측이 가능했다. 설명 측면에서는 사용자 선호와 일치하는 세그먼트가 선택되는 비율이 통계적으로 유의미하게 높았으며, 청취 후 설문 조사에서도 사용자는 “음악의 어느 부분이 추천 이유인지 알 수 있어 만족스럽다”고 응답했다. SeER는 두 가지 중요한 연구 공백을 메운다. 첫째, 기존 딥러닝 기반 음악 추천이 메타데이터(음악 장르, 아티스트 등)만 활용했지만, SeER는 실제 음표와 리듬 정보를 직접 학습한다는 점이다. 둘째, 설명 가능성을 단순히 텍스트 기반 특성 중요도 제시가 아니라, 청취 가능한 실제 음악 조각을 제공함으로써 사용자가 직관적으로 이해할 수 있게 만든다. 다만 모델은 RNN/GRU의 시계열 처리 비용과 MIDI 파일의 품질에 민감하며, 다중 악기·다양한 템포를 가진 복잡한 곡에서는 은닉 상태가 충분히 표현력을 갖추기 어려울 수 있다. 향후 연구에서는 트랜스포머 기반 시퀀스 모델 도입, 멀티모달(오디오 스펙트로그램 + MIDI) 결합, 그리고 실시간 인터랙티브 설명 인터페이스 구축 등을 통해 성능과 사용자 경험을 더욱 향상시킬 여지가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기