아이템2벡 협업 필터링을 위한 신경망 아이템 임베딩
초록
본 논문은 아이템 기반 협업 필터링을 자연어 처리의 워드 임베딩 기법인 Skip‑gram with Negative Sampling(SGNS)과 동일한 프레임워크로 재구성한다. SGNS의 아이디어를 차용해 아이템 간 관계를 저차원 벡터 공간에 매핑하는 item2vec을 제안하고, 사용자 정보가 없더라도 아이템‑아이템 유사성을 효과적으로 추정한다. 실험 결과는 item2vec이 기존 SVD 기반 방법과 경쟁력 있음을 보여준다.
상세 분석
본 연구는 협업 필터링(CF)에서 오래된 아이템‑기반 접근법을 최신 신경망 임베딩 기법과 연결시킨 점이 가장 큰 혁신이다. 전통적인 아이템‑기반 CF는 코사인 유사도나 피어슨 상관계수 등 통계적 방법으로 아이템 간 유사성을 계산한다. 그러나 이러한 방법은 희소한 사용자‑아이템 행렬에서 신뢰할 수 있는 유사도 추정이 어려워 차원의 저주와 데이터 스파스성 문제에 직면한다.
SGNS, 즉 word2vec의 핵심 아이디어는 ‘맥락(window) 안에 등장하는 단어 쌍을 긍정 샘플로, 무작위로 선택한 단어 쌍을 부정 샘플로 삼아 로짓 손실을 최소화함으로써 단어를 저차원 밀집 벡터에 매핑하는 것이다. 이때 부정 샘플링은 전체 어휘 분포의 제곱근에 비례하는 확률로 선택되어 효율적인 학습을 가능하게 한다. 논문은 아이템을 ‘단어’, 사용자 구매 혹은 클릭 세션을 ‘문맥’으로 간주하고, 동일 세션 내에 등장한 아이템 쌍을 긍정 샘플, 다른 세션에서 무작위로 추출한 아이템 쌍을 부정 샘플로 정의한다.
핵심 수식은 SGNS와 동일하게
( \log \sigma(\mathbf{v}i^\top \mathbf{v}j) + \sum{k=1}^{K} \mathbb{E}{w_k \sim P_n}
댓글 및 학술 토론
Loading comments...
의견 남기기