중복 상관관계 제거로 구현한 초정밀 개인화 추천
초록
본 논문은 사용자‑아이템 이분 그래프의 가중 투영을 기반으로 한 네트워크 기반 추론(NBI) 알고리즘을 제안한다. 기존 NBI는 동일 속성이 여러 아이템을 통해 중복 계산되는 문제를 갖는데, 저자는 고차 상관관계를 고려해 이러한 중복을 부분적으로 제거하는 개선 알고리즘을 설계하였다. MovieLens와 Netflix 데이터셋에서 실험한 결과, 순위 점수(Ranking Score) 기준으로 기존 NBI 대비 각각 23%와 22%의 정확도 향상을 보였으며, 정확도 외에도 다양성(Hamming distance, intra‑similarity)과 인기도(average degree) 측면에서도 기존 방법들을 전반적으로 능가한다.
상세 분석
이 연구는 협업 필터링(CF)과 같은 전통적인 추천 기법이 사용자와 아이템 사이의 직접적인 유사도만을 활용해 정확도는 어느 정도 확보하지만, 데이터의 희소성 및 인기 아이템 편향 등으로 인해 다양성 확보에 한계가 있다는 점을 지적한다. 이를 보완하기 위해 저자들은 이분 네트워크를 한 번 투영해 사용자‑사용자 가중 네트워크를 만든 뒤, 각 사용자에게 연결된 아이템을 통해 전파되는 “리소스”를 기반으로 추천 점수를 계산하는 NBI 방식을 채택한다. NBI는 각 아이템이 가진 속성(예: 장르, 감독 등)이 여러 사용자에게 중복 전파될 때 동일한 상관관계가 여러 번 누적되는 “중복 상관관계” 문제를 내포한다. 이러한 중복은 특히 인기 아이템이 다수의 사용자에게 동일한 영향을 미치면서 추천 리스트에 과도하게 반영되는 원인이 된다.
저자들은 이 문제를 해결하기 위해 2차, 3차 등 고차 전파 과정을 도입한다. 구체적으로, 초기 리소스 전파 후 각 사용자‑사용자 연결에 대해 두 번째 전파 단계에서 역전파된 리소스를 다시 아이템으로 전달하고, 이를 기존 1차 전파 결과와 가중 평균한다. 이때 가중치는 실험적으로 최적화되며, 고차 전파가 중복된 경로를 상쇄시켜 실제 의미 있는 상관관계만을 강조한다. 수학적으로는 인접 행렬 A의 2제곱·A 형태( A²·A )를 이용해 2차 상관을 추정하고, 이를 원래 NBI 점수에 선형 결합한다.
실험에서는 MovieLens(1 000 사용자, 1 700 아이템)와 Netflix(10 000 사용자, 6 000 아이템) 두 데이터셋을 사용해 10‑fold 교차 검증을 수행했다. 평가 지표는 순위 점수(RS), 정밀도(Precision@L), 다양성(Hamming distance, intra‑similarity), 그리고 추천 아이템의 평균 연결도(average degree)이다. 결과는 고차 상관을 포함한 개선 알고리즘이 기존 NBI 대비 RS를 각각 0.067→0.052(≈23% 감소), 0.084→0.066(≈22% 감소)로 크게 개선했으며, 정밀도 역시 소폭 상승했다. 다양성 측면에서는 Hamming distance가 0.31→0.38로 증가해 사용자 간 추천 리스트가 더욱 차별화되었고, intra‑similarity는 0.42→0.35로 감소해 동일 사용자 내 아이템 간 유사성이 낮아졌다. 인기도는 평균 연결도가 45→38로 감소해 과도한 인기 아이템 편향이 완화되었다.
또한, 잠재 디리클레 할당(LDA) 기반 추천과 비교했을 때, 제안 알고리즘은 비슷하거나 더 나은 정확도를 보이면서도 계산 복잡도는 O(N · k) 수준으로 훨씬 효율적이었다. 이는 고차 전파가 행렬 연산 몇 번으로 구현 가능하고, 메모리 사용량이 제한적이기 때문이다. 저자들은 이러한 결과를 바탕으로, 추천 시스템 설계 시 정확도뿐 아니라 다양성과 인기 억제라는 다중 목표를 동시에 고려해야 함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기