히트곡 예측을 위한 시암쌍 CNN과 순위 손실

히트곡 예측을 위한 시암쌍 CNN과 순위 손실
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 팝 음악의 히트곡을 예측하기 위해 일일 재생 횟수 데이터를 활용한 시암쌍(쌍) CNN 모델을 제안한다. 기존의 회귀·분류 방식 대신 순위 학습을 도입하고, A/B 샘플링, 아티스트 샘플링, 태그 기반 고수준 특징, 그리고 음악 하이라이트 추출(Thumbnailing) 기법을 결합해 정확도를 크게 향상시켰다. 실험 결과 A/B 샘플링과 태그 정보를 이용한 시암쌍 CNN이 가장 높은 nDCG·Kendall·Spearman 점수를 기록하였다.

상세 분석

이 연구는 히트곡 예측을 “순위” 문제로 재정의함으로써 기존 회귀 기반 접근법의 한계를 극복하고자 한다. 핵심 아이디어는 두 곡을 쌍으로 입력받아 동일한 CNN 파라미터를 공유하는 시암쌍 구조를 사용하고, 예측값 사이의 차이가 실제 히트 점수 차이와 일치하도록 마진 기반 순위 손실(pairwise ranking loss)을 적용하는 것이다. 손실 함수는 MSE(평가 손실)와 순위 손실을 가중치 w로 선형 결합한 다목적 형태(loss_multi = (1‑w)·loss_rate + w·loss_rank)로 설계돼, 회귀 정확도와 순위 정확도 사이의 트레이드오프를 조절한다.

데이터 샘플링 전략도 중요한 기여점이다. 음악 청취 로그는 ‘롱테일’ 현상으로 대부분의 곡이 낮은 재생수를 보이는데, 무작위 샘플링(naïve)은 인기곡과 비인기곡을 동일 비율로 비교하게 되어 학습이 편향된다. 이를 해결하기 위해 A/B 샘플링을 도입했는데, 전체 평균 히트 점수보다 높은 곡(A군)과 낮은 곡(B군)으로 데이터를 구분하고, 각 쌍에 최소 하나의 A군 곡을 포함하도록 강제한다. 이렇게 하면 모델이 ‘인기와 비인기의 차이’를 명확히 학습하게 된다. 또한, 동일 아티스트 내에서 히트 차이를 학습하도록 하는 아티스트 샘플링도 제안했으며, 두 샘플링 방식을 가중 평균해 결합하는 실험도 수행했다.

입력 특징은 두 종류로 확장되었다. 첫째, 저수준 오디오 특징으로 30초 길이의 로그 멜스펙트로그램을 사용했으며, 두 번째는 사전 학습된 음악 태깅 모델(JYnet)에서 추출한 50개의 장르·악기·무드 태그 점수를 고수준 특징으로 결합했다. 태그 특징은 별도의 3‑layer fully‑connected DNN을 통해 변환된 뒤, 오디오 기반 CNN 출력과 가중 평균(µ)하여 최종 예측에 반영한다.

시간적 정보를 강화하기 위해 두 가지 30초 세그먼트 추출 방식을 비교했다. 기존와 같이 곡 중앙을 그대로 사용(Mid‑30)한 방법과, 최신 신경망 기반 하이라이트 추출 모델(Thumbnailing, HL‑30)을 이용해 가장 ‘대표적인’ 30초를 선택하는 방법이다. 실험 결과 HL‑30이 Mid‑30보다 일관되게 높은 nDCG와 순위 상관계수를 보였으며, 이는 하이라이트가 곡의 핵심 멜로디·리듬을 포착해 모델이 더 의미 있는 패턴을 학습하게 함을 시사한다.

실험 설정은 KKBOX의 1년 반에 걸친 일일 재생 데이터(약 2백만 곡) 중 히트 점수가 높은 15 000곡을 추출, 10‑fold 교차 검증(8:1:1 비율)으로 학습·검증·테스트를 수행했다. 히트 점수는 곡 발매 후 60일째 일일 시장 점유율로 정의했으며, 이는 초기 프로모션 효과와 장기적인 인기도를 동시에 반영한다. 평가 지표는 상위 10% 곡에 대해 nDCG@10%, Kendall’s τ, Spearman’s ρ를 사용했다.

결과는 다음과 같다. (i) HL‑30을 사용한 단순 CNN은 Mid‑30 대비 nDCG가 0.0725→0.0999로 약 38% 향상되었다. (ii) 태그 특징을 추가하면 nDCG가 0.1241까지 상승하고, 순위 상관계수도 크게 개선된다. (iii) 시암쌍 CNN에 A/B 샘플링을 적용하면 Kendall’s τ가 0.1852, Spearman’s ρ가 0.2713으로, 순위 정확도가 현저히 높아진다. (iv) 최종적으로 A/B 샘플링 + 태그 결합 모델이 nDCG 0.1287, Kendall 0.2415, Spearman 0.3484를 기록하며 가장 우수한 성능을 달성한다. 아티스트 샘플링은 일부 개선을 보였지만, 전체적인 성능 향상은 A/B 샘플링에 비해 제한적이었다.

이 논문은 히트곡 예측에 순위 학습을 도입함으로써 ‘히트 vs. 비히트’를 구분하는 데 더 적합한 모델을 제시한다. 또한 데이터 불균형을 해결하는 샘플링 전략, 고수준 태그와 하이라이트 추출을 통한 특징 강화가 실질적인 성능 향상에 크게 기여함을 입증한다. 향후 연구에서는 아티스트 메타데이터를 보다 정교하게 활용하거나, 멀티모달(가사·소셜 미디어) 정보를 통합해 예측 정확도를 더욱 높일 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기