문단벡터 기반 행렬분해 추천시스템 ParVecMF
초록
ParVecMF는 사용자 리뷰를 Paragraph Vector로 고정 길이 임베딩으로 변환한 뒤, 이를 평점 행렬과 결합해 확률적 행렬분해(PMF) 모델에 MAP 추정으로 통합한다. FineFoods 데이터셋에서 기존 SVD 기반 MF에 비해 MAP@5와 MRR@5 지표에서 소폭 개선된 결과를 보이며, 텍스트와 평점 정보를 동시에 활용하는 가능성을 제시한다.
상세 분석
본 논문은 리뷰 기반 추천시스템에 텍스트 정보를 효과적으로 통합하기 위해 두 단계의 모델링을 제안한다. 첫 번째 단계에서는 Paragraph Vector(PV‑DM) 모델을 사용해 각 사용자와 아이템이 작성한 리뷰 집합을 고정 차원의 실수 벡터(임베딩)로 압축한다. PV‑DM은 단어 임베딩과 문단 토큰을 동시에 학습함으로써 단어 순서와 의미적 연관성을 보존한다는 장점이 있다. 논문에서는 리뷰가 짧고 빈도가 낮은 상황에서도 최소 단어 빈도 1로 설정해 모든 단어를 학습에 포함시켰으며, 이는 데이터 희소성을 완화하려는 시도로 해석된다.
두 번째 단계에서는 이러한 텍스트 임베딩을 확률적 행렬분해(PMF) 모델에 결합한다. 전통적인 PMF는 평점 r_ij를 평균 u_i·v_j, 분산 c_ij⁻¹을 갖는 정규분포로 가정한다. 여기서 저자들은 사용자 잠재 벡터 u_i와 아이템 잠재 벡터 v_j를 각각 텍스트 임베딩 θ_i, θ_j와 정규분포(평균 0, 정밀도 λ_u, λ_v)로부터 샘플링된 오프셋 ε_i, ε_j의 합으로 모델링한다. 즉, u_i = θ_i + ε_i, v_j = θ_j + ε_j 형태이며, 이는 텍스트 정보가 잠재 요인에 대한 사전(prior) 역할을 수행함을 의미한다.
MAP 추정을 위해 로그 사후 확률을 최대화하는 목적함수 L을 도출하고, 그에 대한 편미분을 통해 업데이트 규칙(식 12, 13)을 얻는다. 이 규칙은 기존 PMF의 경사 하강법에 텍스트 임베딩 θ_i, θ_j를 직접 더해주는 형태로, 학습 과정에서 텍스트와 평점이 동시에 반영된다.
실험은 Amazon FineFoods 데이터셋(리뷰 56만 건, 사용자 25만 명, 아이템 7만 개)에서 5‑fold 교차 검증으로 수행되었다. 평가 지표는 MAP@5와 MRR@5이며, 관련 아이템은 별점 4점 이상으로 정의했다. 결과는 ParVecMF가 순수 SVD 기반 MF보다 MAP에서 약 1.2%p, MRR에서 약 0.9%p 향상된 것으로 보고되었다. 비록 개선폭이 작지만, 텍스트와 평점을 통합한 모델이 실제 추천 정확도에 긍정적 영향을 미칠 수 있음을 실증한다.
한계점으로는 (1) 텍스트 임베딩을 사전 학습 단계에서 고정했기 때문에 추천 모델 학습 중에 동적으로 조정되지 않는다. (2) 리뷰 길이가 짧고 사용자·아이템당 리뷰 수가 적은 고희소성 데이터에서 임베딩 품질이 제한될 수 있다. (3) 실험이 하나의 도메인에만 국한돼 일반화 가능성을 검증하지 못했다. 향후 연구에서는 end‑to‑end 학습, 다중 도메인 평가, 그리고 리뷰 외의 메타데이터(예: 이미지, 카테고리)와의 다중 모달 융합을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기