가사 의미를 활용한 히트곡 예측 모델

읽는 시간: 3 분
...

📝 원문 정보

  • Title: Lyrics Matter: Exploiting the Power of Learnt Representations for Music Popularity Prediction
  • ArXiv ID: 2512.05508
  • 발행일: 2025-12-05
  • 저자: Yash Choudhary, Preeti Rao, Pushpak Bhattacharyya

📝 초록 (Abstract)

음악 인기 예측은 아티스트·프로듀서·스트리밍 플랫폼 모두에게 중요한 과제이며, 기존 연구는 주로 오디오 특성, 소셜 메타데이터 또는 모델 구조에 초점을 맞추어 왔다. 본 연구는 인기 예측에 있어 가사의 역할이 충분히 탐구되지 않았다는 점에 주목한다. 우리는 대형 언어 모델(LLM)을 이용해 가사를 고차원 임베딩으로 변환하는 자동 파이프라인을 구축하였다. 이 임베딩은 의미, 구문, 순차 정보를 모두 포괄한다. 추출된 가사 특징을 LyricsAENet이라 명명한 뒤, 오디오와 소셜 메타데이터와 결합한 다중모달 아키텍처 HitMusicLyricNet에 통합하였다. SpotGenTrack 데이터셋(10만 트랙 이상)에서 기존 베이스라인 대비 평균절대오차(MAE)와 평균제곱오차(MSE)에서 각각 9 %와 20 %의 개선을 달성하였다. Ablation 실험을 통해 성능 향상이 LLM 기반 가사 특징 파이프라인에 기인함을 확인하였다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 음악 인기 예측 분야에서 ‘가사’라는 텍스트 정보를 정량화하고, 이를 다른 모달리티와 결합함으로써 성능 향상을 이끌어낸 점이 가장 큰 혁신이다. 기존 연구들은 주로 음향 신호의 스펙트럼 특성, 템포, 키와 같은 저차원 오디오 피처 혹은 스트리밍 횟수, SNS 언급량 등 정형화된 메타데이터에 의존해 왔으며, 가사는 종종 부수적인 설명이나 실험적 변수 수준에 머물렀다. 여기서 저자들은 최신 대형 언어 모델(예: GPT‑4 계열)을 활용해 가사를 의미론적·구문론적·시퀀스 정보를 동시에 담은 고차원 임베딩으로 변환한다. 이러한 임베딩은 전통적인 Bag‑of‑Words나 TF‑IDF와 달리 문맥을 보존하고, 은유·비유·감정 표현까지 포착할 수 있다.

파이프라인은 크게 세 단계로 구성된다. 첫째, 원시 가사를 전처리하고 토큰화한다. 둘째, 사전 학습된 LLM에 입력해 각 토큰의 컨텍스트‑의존 벡터를 추출하고, 이를 평균·가중 평균·CLS 토큰 등 다양한 풀링 전략으로 하나의 고정 길이 벡터로 압축한다. 셋째, 이 벡터를 LyricsAENet이라 명명한 작은 완전 연결 네트워크에 통과시켜 차원 축소와 정규화를 수행한다.

다중모달 모델 HitMusicLyricNet은 오디오 피처(예: Mel‑Spectrogram, MFCC), 사회적 메타데이터(팔로워 수, 플레이리스트 포함 횟수)와 가사 임베딩을 각각 별도의 서브네트워크로 처리한 뒤, 최종 레이어에서 결합한다. 이렇게 하면 각 모달리티가 독립적으로 학습된 특성을 유지하면서도 상호 보완적인 정보를 교류할 수 있다.

실험에서는 SpotGenTrack이라는 대규모 공개 데이터셋을 사용했으며, 100 000곡 이상에 대해 오디오, 가사, 메타데이터를 모두 확보했다. 베이스라인으로는 전통적인 회귀 모델, 단일 모달 딥러닝 모델, 그리고 기존 멀티모달 아키텍처를 선정하였다. 결과는 MAE가 9 % 감소하고 MSE가 20 % 감소하는 등 통계적으로 유의미한 개선을 보였다. 특히 Ablation 실험에서 가사 임베딩을 제외했을 때 성능이 급격히 저하되는 것을 확인함으로써, 가사 정보가 모델 성능에 핵심적인 기여를 함을 입증하였다.

한계점으로는 LLM 기반 가사 임베딩이 계산 비용이 크고, 가사 데이터가 없는 인스트루멘털 트랙에 적용하기 어려운 점을 들 수 있다. 또한, 현재 모델은 인기 점수를 0‑100의 연속값으로 예측하지만, 실제 차트 순위와 같은 순위 기반 평가와의 연계성은 검증되지 않았다. 향후 연구에서는 경량화된 텍스트 인코더를 도입해 실시간 서비스에 적용 가능하도록 하거나, 가사와 청취자 감정 반응을 연결하는 감성 분석 모듈을 추가하는 방안을 모색할 수 있다.

📄 논문 본문 발췌 (Translation)

음악 인기 예측은 음악 산업에서 중요한 과제로, 아티스트, 프로듀서 및 스트리밍 플랫폼 모두에게 큰 이점을 제공한다. 기존 연구는 주로 오디오 특징, 사회적 메타데이터 또는 모델 구조에 초점을 맞추어 왔으며, 가사의 역할은 충분히 탐구되지 않았다. 본 연구는 인기 예측에 있어 가사의 역할이 미흡하게 다루어졌다는 점을 해결하고자 한다. 우리는 대형 언어 모델(LLM)을 활용하여 가사를 고차원 임베딩으로 자동 추출하는 파이프라인을 제시한다. 이 임베딩은 의미적, 구문적, 순차적 정보를 모두 포괄한다. 추출된 가사 특징은 LyricsAENet이라 명명한 뒤, 오디오, 가사 및 사회적 메타데이터를 결합한 다중모달 구조인 HitMusicLyricNet에 통합된다. SpotGenTrack 데이터셋(10만 트랙 이상)에서 본 방법은 기존 베이스라인 대비 평균절대오차(MAE)와 평균제곱오차(MSE)에서 각각 9 %와 20 %의 향상을 달성하였다. Ablation 실험을 통해 성능 향상이 LLM 기반 가사 특징 파이프라인(LyricsAENet)에서 비롯된 것임을 확인했으며, 이는 밀집된 가사 표현의 가치를 강조한다.

📸 추가 이미지 갤러리

Flowchart_16.jpg HitMusicNet.png LIME_Global.png LIME_LL.png LIME_Lyric.png SHAPE_Global.png SHAP_LL.png SHAP_lyric.png SPD_CleanedData_Dist.png artist_global_error.png error_releaseyear.png pop_dist.png residual_caliberation_plot.png residual_distribution.png residual_scatter_plot.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키