사이드 정보를 활용한 아이템‑아이템 음악 추천 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사용자 청취 로그와 트랙 메타데이터(제작자 등)를 결합한 아이템‑아이템 협업 필터링 방식을 제안한다. 슬라이딩 윈도우를 이용해 트랙‑트랙 공출현 행렬을 구축하고, 이를 팩터화 머신(Factorization Machines)으로 학습한다. 실험 결과, 기존의 암시적 행렬분해(IMF)보다 평균 퍼센타일 순위(MPR)가 크게 개선되었으며, 특히 긴 꼬리(희소 트랙)에서 사이드 정보가 성능을 크게 향상시켰다.

상세 분석

이 연구는 대규모 음악 스트리밍 서비스에서 비개인화된 트랙‑트랙 유사도 계산을 목표로 한다. 기존의 협업 필터링은 사용자‑아이템 행렬의 희소성 때문에 콜드 스타트 문제에 취약했으며, 특히 청취 횟수가 적은 트랙에 대한 유사도 추정이 어려웠다. 이를 해결하기 위해 저자들은 두 가지 핵심 아이디어를 도입한다. 첫째, 사용자 행동을 “강한 긍정 신호”만 남기는 전처리 과정을 거쳐 노이즈를 최소화한다. 여기에는 전체 청취, 재생목록 추가, 공유, 좋아요 등이 포함되며, 단일 청취나 스킵은 제외한다. 둘째, 슬라이딩 윈도우를 적용해 시간 순서대로 정렬된 긍정 상호작용 스트림에서 인접 트랙 쌍을 추출한다. 윈도우 크기는 10개 아이템(좌우 5개)로 설정했으며, 멀리 떨어진 아이템은 가중치를 낮추어 공출현 행렬 O에 반영한다. 이렇게 생성된 O⁺는 트랙 i가 트랙 j의 컨텍스트로 등장한 횟수를 기록한다.

공출현 행렬을 직접 팩터화하기 위해 저자들은 Factorization Machines(FM)을 활용한다. FM은 전통적인 행렬분해와 달리 입력 피처 벡터 ~x에 다중 이진 인디케이터를 포함할 수 있다. 여기서는 세 부분으로 구성된 ~x를 만든다. 첫 번째는 타깃 트랙, 두 번째는 컨텍스트 트랙, 세 번째는 부가적인 사이드 피처(예: 트랙 길이, 발매 연도, 제작자 ID, 오디오 특성 등)이다. 각 피처는 고유의 잠재 벡터 ~vᵢ를 갖고, 예측값 ˆy는 모든 피처 쌍의 내적 합으로 계산된다(식 2). 이 구조는 기존의 사용자‑아이템 임베딩에 비해 훨씬 풍부한 상호작용을 모델링한다는 장점이 있다.

학습 목표는 로그 손실(logistic loss)과 부정 샘플링을 결합한 형태이다. 관측된 양성 쌍은 y=+1, 부정 샘플은 y=−1로 라벨링하고, 손실 L(ˆy, y)=log(1+exp(−ˆy·y))를 최소화한다. 부정 샘플은 트랙‑트랙 공출현 분포를 평활화한 확률에 따라 비균등하게 추출함으로써, 흔히 발생하는 “모든 트랙이 서로 다르다”라는 가정을 강화한다. 최적화는 AdaGrad 기반의 확률적 경사 하강법으로 수행되며, 메모리와 연산 효율을 위해 모든 차원에 동일 학습률을 적용한다.

실험에서는 SoundCloud 로그에서 1.5 billion 이상의 상호작용을 추출해 40 M 사용자와 1 B 트랙을 대상으로 모델을 학습했다. 데이터는 시간 기준으로 훈련/테스트 셋을 분리했으며, 테스트에서는 훈련에 등장한 트랙을 제외한 새로운 청취 기록을 사용했다. 평가 지표는 평균 퍼센타일 순위(MPR)이며, 트랙 빈도에 따라 7개의 빈(bin)으로 구분해 성능을 분석했다. 결과는 기본 암시적 행렬분해(IMPL) 대비 ITEM 모델이 모든 빈에서 MPR을 크게 낮췄으며, 특히 제작자 정보를 추가한 ITEMc 모델은 긴 꼬리(희소 트랙)에서 MPR을 0.5에 가깝게 끌어올려 무작위 추천보다 현저히 우수함을 보였다. 이는 사이드 정보가 희소 데이터에서 잠재 구조를 보강한다는 것을 실증한다.

이 논문의 주요 기여는 (1) 사용자 행동을 정제해 강한 신호만을 활용한 데이터 전처리 방식, (2) 도메인 특성을 반영한 슬라이딩 윈도우 기반 공출현 행렬 구축, (3) FM을 통한 다중 피처 통합 학습 프레임워크, (4) 대규모 실서비스 로그에 대한 실증적 검증이다. 또한 구현 코드를 오픈소스로 공개함으로써 다른 아이템‑아이템 추천 문제에도 손쉽게 적용할 수 있도록 했다.

사이드 정보를 활용한 아이템‑아이템 음악 추천 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기