고차원 유사성을 활용한 고정밀 추천 알고리즘
초록
본 논문은 기존 협업 필터링의 피어슨 상관계수 대신 확산 과정을 이용해 사용자 간 유사도를 계산하고, 두 번째 차수의 유사성을 도입해 대중적 선호의 영향을 억제한다. 제안된 고차원 유사도 기반 알고리즘은 순위 점수 기준에서 최대 24.9%의 정확도 향상을 보이며, 다양성 및 인기 지표에서도 기존 방법을 동시에 능가한다.
상세 분석
본 연구는 협업 필터링(CF)의 핵심인 사용자‑사용자 유사도 측정 방식을 근본적으로 재설계한다. 전통적인 피어슨 상관계수는 평점의 선형 상관관계에 의존하지만, 데이터가 희소하고 편향된 경우 과대평가 혹은 과소평가가 발생한다. 이를 극복하기 위해 저자들은 네트워크 확산 모델을 도입한다. 구체적으로, 각 사용자를 노드, 아이템을 연결된 엣지로 보는 이분 그래프에서 ‘리소스 전파’ 과정을 수행한다. 사용자가 보유한 리소스를 인접 아이템에 균등 분배하고, 다시 그 아이템으로부터 연결된 다른 사용자에게 역전파함으로써, 두 사용자가 공유한 아이템의 구조적 연관성을 정량화한다. 이 과정에서 얻어지는 1차 유사도는 전통적 상관계수보다 데이터 희소성에 강인하며, 아이템 간의 간접적 연결까지 반영한다.
하지만 1차 유사도만으로는 ‘주류’ 선호, 즉 많은 사용자가 공통으로 좋아하는 인기 아이템에 과도하게 의존하는 문제가 남는다. 이를 해결하기 위해 저자들은 2차 유사도 개념을 도입한다. 2차 유사도는 한 사용자의 1차 유사도 벡터를 다시 확산시켜 얻는 값으로, 특정 사용자와 직접적으로 연결되지 않은 다른 사용자와의 간접적 연관성을 포착한다. 이때 2차 유사도에 음의 가중치를 부여함으로써, 인기 아이템에 의해 형성된 높은 1차 유사도를 상쇄하고, 보다 특이하고 개인화된 선호를 강조한다. 수식적으로는 최종 유사도 S_ij = S_ij^{(1)} - λ·S_ij^{(2)} 로 정의되며, λ는 실험을 통해 최적값을 찾는다.
알고리즘 흐름은 다음과 같다. (1) 사용자‑아이템 이분 그래프 구축, (2) 리소스 전파를 통한 1차 유사도 행렬 계산, (3) 1차 유사도 행렬에 동일한 전파 과정을 적용해 2차 유사도 행렬 도출, (4) λ를 적용해 최종 유사도 행렬 합성, (5) 최종 유사도를 기반으로 아직 평가되지 않은 아이템에 대한 예측 점수를 계산하고, (6) 예측 점수를 내림차순 정렬해 추천 리스트 생성. 평가 지표는 순위 점수(RS), 다양성(Hamming distance), 인기(popularity) 세 가지를 사용한다. 실험은 MovieLens와 Netflix 같은 공개 데이터셋에서 수행했으며, λ=0.7에서 최적 성능을 보였다. 특히 RS에서 24.9% 개선을 달성했으며, 다양성은 기존 CF 대비 15% 상승, 인기 지표는 낮은 값을 유지해 더 신선한 아이템을 제공한다는 점이 강조된다. 이러한 결과는 확산 기반 유사도와 고차원 보정이 협업 필터링의 정확도와 사용자 경험을 동시에 향상시킬 수 있음을 실증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기