공개 Spotify 플레이리스트로 사용자 속성 추론

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 739명의 Spotify 이용자를 대상으로 10 286개의 공개 플레이리스트 데이터를 수집·분석하여, 음악 선호와 사용자 인구통계·생활 습관·성격 특성 사이의 통계적 연관성을 밝히고, 머신러닝 모델을 통해 성별, 연령, 경제 수준 등 16개 속성을 70 % 이상 정확도로 예측할 수 있음을 입증한다.

상세 분석

이 연구는 먼저 온라인 설문을 통해 739명의 참가자로부터 Spotify ID와 16가지 개인 속성(성별, 연령, 국가, 연애 여부, 혼자 거주 여부, 직업, 경제 수준, 스포츠 활동, 흡연, 음주, 프리미엄 구독 여부, OCEAN 성격 5요인) 정보를 수집하였다. 설문 응답자는 76개국에 걸쳐 있었으며, 연령은 13세에서 55세까지 다양했다. 수집된 ID를 이용해 Spotify 공식 API에서 각 사용자가 공개한 플레이리스트(총 10 286개)를 크롤링하고, 곡·아티스트·장르·오디오 특성 등 111개의 정량적 피처를 추출하였다. 피처는 곡당 평균·표준편차·최소·최대값 등 통계 요약과, 장르 비율, 아티스트 다양성(심슨 지수) 등을 포함한다.

통계적 연관성 검증을 위해 두 집단 간 차이를 평가하는 독립표본 t‑검정과 다집단 차이를 평가하는 ANOVA를 각각 적용하였다. 여기서 피처는 종속 변수, 개인 속성은 그룹 변수로 설정하였다. 사용자당 모든 플레이리스트를 집계해 사용자 수준에서 분석함으로써 플레이리스트 수가 많은 사용자의 영향력을 억제했다. 결과적으로 성별은 아티스트·곡·장르 피처에서 가장 뚜렷한 차이를 보였으며, 연령과 직업은 주로 Misc(플레이리스트 규모·추가 연도 등) 피처와 연관되었다. 음주, 흡연, 프리미엄 구독 여부는 모든 피처 군에서 유의미한 차이를 나타냈고, 성격 요인 중 개방성·성실성·신경증은 특히 장르와 아티스트 다양성에서 구분력이 높았다.

예측 모델링 단계에서는 데이터셋을 사용자 기준으로 70 %/10 %/20 % 비율로 학습·검증·테스트 셋으로 분할하였다. 모델 후보로 로지스틱 회귀, 결정 트리, 랜덤 포레스트, K‑최근접 이웃, 다층 퍼셉트론(MLP)을 사용했으며, 각 모델은 하나의 플레이리스트를 입력으로 받아 속성별 확률을 출력하도록 설계했다. 사용자 수준 예측은 해당 사용자의 모든 플레이리스트에 대한 확률을 평균내어 수행하였다.

성별 예측에서 최고 성능은 랜덤 포레스트와 MLP가 각각 70 %와 71 %의 정확도를 기록했으며, 연령, 국가, 경제 수준 등도 60 %~70 % 수준의 정확도를 보였다. 특히 음주·흡연·프리미엄 구독 여부는 80 %에 육박하는 높은 정확도를 달성했다. 통계적 유의성 검증(p < 0.05) 결과, 대부분의 모델이 베이스라인(Random Guess)보다 유의미하게 우수했으며, 일부 속성(예: 혼자 거주 여부)에서는 차이가 미미했다.

연구는 데이터 수집 과정에서 윤리적 검토와 참여자의 동의 절차를 명시했으며, 개인 식별 정보를 완전히 익명화하고 데이터 삭제 요청을 수용한다는 방침을 제시한다. 한계점으로는 샘플 규모가 제한적이고, 자발적 참여에 따른 선택 편향, 그리고 공개 플레이리스트가 실제 청취 행동을 완전히 대변하지 않을 가능성을 들었다. 향후 연구에서는 더 큰 규모와 다양한 문화권을 포괄하고, 시계열 청취 로그와 결합한 멀티모달 모델을 탐색할 계획이다.

이 논문은 공개 음악 데이터가 개인 프라이버시와 맞물려 민감한 속성을 추론할 수 있음을 실증함으로써, 플랫폼 운영자와 정책 입안자에게 데이터 공개·API 설계 시 프라이버시 보호 조치를 강화할 필요성을 강조한다.

공개 Spotify 플레이리스트로 사용자 속성 추론

초록

상세 분석

댓글 및 학술 토론

의견 남기기