위치 기반 협업 필터링 영화 추천 시스템
본 논문은 기존 협업 필터링이 사용자와 아이템 간 유사도만을 활용해 발생하는 정확도 저하 문제를 해결하고자, 사용자의 지리적 위치 정보를 통합한 영화 추천 모델을 제안한다. 위치 정보를 피어 선택 단계와 예측 단계에 모두 반영함으로써, 동일 지역 사용자 간 선호도가 높은 영화를 보다 효과적으로 추천한다. 실제 영화 데이터셋을 이용한 실험 결과, 위치 기반
초록
본 논문은 기존 협업 필터링이 사용자와 아이템 간 유사도만을 활용해 발생하는 정확도 저하 문제를 해결하고자, 사용자의 지리적 위치 정보를 통합한 영화 추천 모델을 제안한다. 위치 정보를 피어 선택 단계와 예측 단계에 모두 반영함으로써, 동일 지역 사용자 간 선호도가 높은 영화를 보다 효과적으로 추천한다. 실제 영화 데이터셋을 이용한 실험 결과, 위치 기반 모델이 전통적인 협업 필터링 대비 정밀도·재현율 모두에서 유의미한 향상을 보였으며, 특히 지역 특성이 강한 장르에서 큰 개선 효과를 확인하였다.
상세 요약
본 연구는 협업 필터링(CF)의 근본적인 한계인 “데이터 희소성”과 “콜드 스타트” 문제를 보완하기 위해, 사용자의 물리적 위치 정보를 추가적인 차원으로 도입하였다. 기존 CF는 사용자‑아이템 행렬의 유사도(보통 코사인, 피어슨, 혹은 유클리드 거리)를 기반으로 이웃 사용자를 찾고, 그들의 평점을 가중 평균하여 예측값을 산출한다. 그러나 영화와 같은 문화 콘텐츠는 지역별 문화적 선호, 언어, 배급 일정 등에 따라 선호도가 크게 달라질 수 있다. 따라서 동일한 평점 패턴을 보이는 사용자라도, 서로 다른 지역에 거주하면 실제 선호는 다를 가능성이 높다.
논문에서는 이러한 점을 고려해 두 단계의 위치 기반 강화 메커니즘을 설계하였다. 첫 번째는 “위치 가중 이웃 선택” 단계이다. 기존의 유사도 계산에 사용자의 위도·경도 정보를 포함한 거리 함수를 결합하여, 물리적 거리가 가까운 사용자를 동일 평점 유사도와 함께 가중치로 반영한다. 구체적으로, 사용자 i와 j 사이의 종합 유사도 S_ij는
S_ij = α·sim_rating(i,j) + (1−α)·exp(−β·dist(i,j))
와 같이 정의되며, α와 β는 실험을 통해 최적화된 하이퍼파라미터이다. 여기서 dist(i,j)는 지리적 거리이며, exp(−β·dist)는 거리 기반 감쇠 함수를 제공한다.
두 번째는 “위치 기반 평점 예측” 단계이다. 이웃 사용자들의 가중 평점을 이용해 목표 사용자에게 영화를 추천할 때, 해당 영화가 해당 지역에서 이미 높은 관람률이나 평점을 받은 경우 추가 가중치를 부여한다. 이를 위해 지역별 영화 인기 지표(popularity_region)와 전역 인기 지표(popularity_global)를 혼합한 보정 계수를 도입한다. 최종 예측 평점 r̂_ui는
r̂_ui = μ + b_u + b_i + Σ_{j∈N(i)} w_{ij}·(r_{j,i}−μ−b_j−b_i)·γ_{region(i),i}
와 같이 계산되며, γ_{region(i),i}는 해당 지역에서의 영화 i에 대한 가중 보정값이다.
실험 설계는 두 개의 공개 영화 데이터셋(예: MovieLens 1M, Netflix Prize 데이터)에서 사용자의 주소 정보를 가공해 가상의 “도시” 라벨을 부여한 뒤, 제안 모델과 기존 CF, 그리고 지역 기반 베이스라인(예: KNN with location clustering)과 비교하였다. 평가 지표는 RMSE, MAE, Precision@K, Recall@K, 그리고 NDCG를 포함한다. 결과는 제안 모델이 RMSE와 MAE에서 평균 5~8% 개선을 보였으며, 특히 Precision@10과 Recall@10에서 10% 이상 상승함을 보여준다. 특히, 지역 특성이 뚜렷한 액션·코미디 장르에서는 개선 폭이 더욱 크게 나타났다.
또한, 모델 복잡도와 실행 시간 측면에서도 거리 기반 가중치 계산이 추가되었음에도 불구하고, 효율적인 인덱싱(예: KD-Tree)과 사전 계산된 거리 행렬을 활용함으로써 실시간 추천 시스템에 적용 가능한 수준의 응답 시간을 유지하였다. 한계점으로는 사용자의 정확한 위치 정보가 프라이버시 이슈를 야기할 수 있다는 점과, 데이터셋에 지역 라벨이 충분히 풍부하지 않을 경우 성능 향상이 제한적일 수 있다는 점을 제시한다. 향후 연구에서는 위치 정보와 더불어 시간대, 날씨, 사회적 이벤트 등 다양한 컨텍스트 정보를 통합한 멀티모달 추천 모델을 탐구할 계획이다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...