소셜 정보를 활용한 랜덤 워크 기반 추천 모델
초록
본 논문은 사용자·아이템·콘텐츠·소셜 네트워크를 하나의 방향성 그래프로 통합하고, 마코프 랜덤 워크를 이용해 개인화된 추천과 그룹 예측을 수행하는 하이브리드 협업 필터링 기법을 제안한다. 데이터 희소성과 콜드 스타트 문제를 완화하기 위해 평점 정보를 엣지 가중치에 반영하고, 실험에서는 MovieLens와 Epinions 데이터셋에서 기존 그래프 기반 방법보다 우수한 성능을 확인하였다.
상세 분석
이 연구는 전통적인 협업 필터링(CF)의 한계인 데이터 희소성(sparsity)과 신규 사용자·아이템에 대한 콜드 스타트 문제를 그래프 이론과 확률적 전파 모델을 결합함으로써 해결하고자 한다. 먼저, 사용자와 아이템을 정점으로 하는 이분 그래프에 더해 아이템의 메타데이터(예: 장르, 감독)와 사용자의 프로필(연령, 성별) 그리고 소셜 네트워크(친구 관계)를 추가하여 다중 레이어 복합 그래프를 구성한다. 각 정점 간 연결은 방향성을 가지며, 사용자가 아이템에 매긴 평점은 해당 엣지의 가중치로 직접 매핑된다. 평점이 높은 경우 가중치를 크게, 낮은 경우 작게 설정함으로써 랜덤 워크가 선호도가 높은 경로를 더 많이 탐색하도록 설계하였다.
마코프 랜덤 워크는 초기 확률 분포를 특정 사용자에 집중시켜 개인화된 전이 행렬을 만든다. 전이 과정에서 사용자는 자신이 직접 연결된 아이템뿐 아니라, 아이템을 통해 연결된 유사 아이템, 그리고 소셜 네트워크를 통해 연결된 다른 사용자의 선호까지 전파된다. 이때 전이 확률은 정규화된 가중치 합으로 계산되며, 수렴 단계에서는 파워 메서드(power method)를 이용해 stationary distribution을 얻는다. 최종적으로 각 아이템에 할당된 확률값이 해당 사용자의 추천 점수가 되며, 상위 N개의 아이템을 추천 리스트로 제공한다.
알고리즘의 핵심은 두 가지 측면에서 혁신적이다. 첫째, 평점 기반 가중치와 소셜 연결을 동시에 고려함으로써 기존 CF가 놓치기 쉬운 ‘사회적 영향’과 ‘콘텐츠 유사성’를 자연스럽게 통합한다. 둘째, 그래프 전이 과정이 확률적이면서도 전역적인 구조를 반영하기 때문에, 희소한 평점 데이터만으로도 충분히 의미 있는 전파가 가능해진다. 실험에서는 특히 신규 사용자나 아이템이 포함된 상황에서, 전통적인 행렬 분해 기반 모델보다 평균 절대 오차(MAE)와 정밀도·재현율 측면에서 현저히 높은 성능을 보였다. 또한, 그룹 추천 시에는 여러 사용자의 초기 분포를 평균화하여 공동 선호도를 추정함으로써, 개인 맞춤형과 집단 맞춤형을 동시에 만족시키는 결과를 얻었다.
한계점으로는 그래프 규모가 커질수록 전이 행렬의 저장 및 연산 비용이 급증한다는 점이다. 이를 완화하기 위해 저자들은 희소 행렬 압축과 샘플링 기반 근사 기법을 제안했지만, 대규모 실시간 서비스에 적용하려면 추가적인 분산 처리 최적화가 필요하다. 또한, 소셜 네트워크 데이터의 품질과 프라이버시 이슈가 모델 성능에 미치는 영향을 정량적으로 분석하지 않은 점도 향후 연구 과제로 남는다.
종합하면, 이 논문은 마코프 랜덤 워크를 기반으로 사용자·아이템·콘텐츠·소셜 정보를 통합한 그래프 모델을 제시함으로써, 기존 CF의 구조적 한계를 효과적으로 보완하고, 특히 콜드 스타트 상황에서 실용적인 개선을 입증하였다.