위키피디아 기반 SVD 추천 시스템 성능 향상

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 아이템을 위키피디아 페이지와 매핑하고, 페이지 간 유사도를 정량화하여 기존 SVD 기반 협업 필터링에 통합함으로써 데이터 희소성이 높은 상황에서도 추천 정확도를 향상시키는 방법을 제안한다. 제안 기법은 기존 SVD 구현에 최소한의 수정만으로 적용 가능하며, MovieLens 데이터셋을 이용한 실험에서 RMSE 감소를 확인하였다.

상세 분석

본 연구는 전통적인 SVD 기반 협업 필터링 모델이 사용자‑아이템 평점 행렬의 고유값 분해를 통해 잠재 요인을 학습하는 과정에서, 평점 데이터의 희소성(sparsity) 문제에 취약하다는 점을 출발점으로 삼는다. 이를 보완하기 위해 저자들은 아이템을 위키피디아 페이지와 1:1 매핑하고, 각 페이지의 텍스트 내용, 카테고리, 내부 링크 구조 등을 활용해 아이템 간 유사도 행렬 S 를 구축한다. 구체적으로, 텍스트는 TF‑IDF 가중치를 적용한 벡터화 후 코사인 유사도로, 링크 구조는 Jaccard 또는 Adamic‑Adar 지표로 정량화하였다. 이렇게 얻어진 S 는 기존 SVD 모델의 손실 함수에 정규화 항으로 추가되어, 잠재 요인 pᵤ, qᵢ 가 아이템 유사도 정보를 반영하도록 유도한다. 수식적으로는
L = Σ_{(u,i)∈R}(r_{ui}−μ−b_u−b_i−p_u^T q_i)^2 + λ(‖p_u‖^2+‖q_i‖^2) + α Σ_{i,j} S_{ij}‖q_i−q_j‖^2
와 같이 표현된다. 여기서 α 는 위키피디아 기반 정규화 항의 가중치이며, 기존 SVD에 추가적인 파라미터 튜닝 없이도 손쉽게 적용 가능하도록 설계되었다. 실험에서는 MovieLens 1M 데이터를 90 %까지 무작위로 마스킹하여 희소성을 인위적으로 높인 뒤, 다양한 α 값에 대해 RMSE와 MAE를 측정하였다. 결과는 α > 0인 경우, 특히 0.01~~0.05 구간에서 기존 SVD 대비 평균 RMSE가 0.018~~0.025 포인트 감소함을 보여준다. 이는 위키피디아 기반 아이템 간 구조적 유사도가 잠재 요인 학습에 유의미한 보조 정보를 제공한다는 증거이다. 또한, 모델 복잡도는 기존 SVD와 동일하게 O(|R| + |I| · k) 수준이며, 전처리 단계(위키피디아 매핑 및 유사도 계산)만 별도 비용이 발생한다. 한계점으로는 위키피디아 커버리지가 낮은 도메인(예: 특수 산업 제품)에서는 적용이 어려울 수 있으며, 페이지 업데이트에 따른 유사도 재계산 비용이 존재한다는 점을 들 수 있다. 전반적으로, 본 접근법은 데이터 희소성 문제를 외부 지식(위키피디아)으로 보완함으로써 SVD 기반 추천 시스템의 정확도를 실질적으로 향상시킬 수 있음을 입증한다.

위키피디아 기반 SVD 추천 시스템 성능 향상

초록

상세 분석

댓글 및 학술 토론

의견 남기기