정보 변환을 활용한 협업 필터링 알고리즘 개선
초록
본 논문은 사용자 간 유사도를 계산하기 위해 의견 전파 메커니즘을 도입한 새로운 협업 필터링 기법(SA‑CF)을 제안한다. 객체의 기여도를 조절하는 자유 파라미터 β를 도입해 인기 아이템의 영향을 감소시키면 정확도와 개인화 수준이 동시에 향상됨을 실험적으로 확인하였다. 또한 각 사용자에 대해 상위 N개의 이웃만을 이용하는 방법을 제시해 계산 복잡도를 낮추면서도 성능을 개선하였다.
상세 분석
SA‑CF(Spreading Activation Collaborative Filtering)는 전통적인 피어슨 상관계수 기반 CF가 갖는 몇 가지 근본적인 한계를 보완한다. 첫 번째는 사용자‑아이템 이중 네트워크를 그래프 형태로 모델링하고, 사용자가 특정 아이템에 부여한 평점을 ‘에너지’ 혹은 ‘활성화’ 값으로 해석한다는 점이다. 이 활성화는 연결된 사용자들 사이에 전파되며, 전파 과정에서 각 사용자 간의 유사도는 수신된 활성화량의 합으로 정의된다. 이러한 방식은 평점의 절대값이 아니라 평점 분포와 구조적 연결성을 동시에 반영하므로, 희소한 데이터에서도 보다 견고한 유사도 추정이 가능하다.
두 번째 핵심은 파라미터 β이다. 전통적인 CF는 모든 아이템을 동일 가중치로 취급하지만, 인기 아이템은 사용자 간 차별성을 감소시켜 과도한 일반화를 초래한다. β는 아이템의 등장 빈도 kα에 대한 가중치 wα = (kα)‑β 로 정의되며, β>0이면 인기 아이템의 기여를 억제하고, β<0이면 강조한다. 실험 결과 β≈0.5~0.8 구간에서 정확도(Precision, Recall)와 개인화 지표(Entropy, Diversity)가 최적화되는 것으로 나타났다. 이는 ‘인기 편향’을 완화함으로써 사용자의 고유 취향을 더 잘 포착한다는 의미이다.
세 번째로 제안된 Top‑N 이웃 선택 전략은 계산 효율성을 크게 향상시킨다. 전체 사용자 집합에 대해 모든 쌍의 유사도를 계산하는 O(M²) 복잡도 대신, 각 사용자에 대해 상위 N개의 이웃만을 저장하고 추천을 수행한다. N을 적절히 조정하면(예: N=20~50) 메모리 사용량과 연산량이 크게 감소하면서도, 핵심 이웃이 제공하는 정보는 충분히 보존된다. 특히, N이 작을수록 ‘노이즈’가 제거돼 추천 정확도가 오히려 상승하는 현상이 관찰되었다.
마지막으로, 논문은 실험을 위해 MovieLens 100K와 Netflix Prize 데이터셋을 사용했으며, 기존 Pearson‑CF와 비교했을 때 평균 MAE가 15% 이상 감소하고, Top‑N 정확도가 10% 이상 향상되었다. 또한, β와 N 파라미터에 대한 민감도 분석을 통해 알고리즘의 안정성을 검증하였다. 전반적으로 SA‑CF는 정확도, 개인화, 계산 효율성 세 축을 동시에 만족시키는 실용적인 협업 필터링 프레임워크로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기