스팸 저항성을 갖춘 상관계수 기반 평판 순위 알고리즘
초록
본 논문은 사용자 평점 데이터를 이용해 객체를 순위 매기는 문제에 대해, 사용자의 평점 벡터와 객체의 가중 평균 평점 벡터 사이의 상관계수를 반복적으로 계산하여 사용자의 평판을 추정하는 알고리즘을 제안한다. 기존의 평균점수 방식과 반복 정제(IR) 방법과 비교했을 때, 인공 데이터와 실제 데이터 실험에서 스팸 사용자 공격에 대한 강인성이 현저히 향상됨을 보인다.
상세 분석
제안된 알고리즘은 먼저 모든 객체에 대해 초기 가중 평균 평점을 단순 평균으로 설정한다. 이후 각 사용자의 평점 벡터와 현재 객체 가중 평균 벡터 사이의 피어슨 상관계수를 계산하여 사용자의 평판 점수로 활용한다. 이 평판 점수는 다음 반복 단계에서 객체의 가중 평균을 재계산할 때 가중치로 사용되며, 평판이 높은 사용자의 의견이 더 큰 영향력을 갖게 된다. 반복 과정은 평판 점수와 객체 평균이 수렴할 때까지 진행된다. 핵심 아이디어는 스팸 사용자는 일반적인 평점 패턴과 상관관계가 낮아 낮은 평판을 얻게 되고, 따라서 그들의 평점이 전체 순위에 미치는 영향을 자연스럽게 억제한다는 점이다.
알고리즘의 수렴성은 실험적으로 확인되었으며, 대부분의 경우 10~15회 반복으로 안정적인 결과가 얻어진다. 시간 복잡도는 각 반복마다 O(N·M) (N은 사용자 수, M은 객체 수)이며, 상관계수 계산에 추가적인 O(N·M) 연산이 필요하지만 메모리 사용량은 기존 IR 방식과 비슷한 수준이다.
스팸 공격 시뮬레이션에서는 두 가지 유형을 고려했다. 첫째는 무작위 평점을 부여하는 랜덤 스팸, 둘째는 특정 객체에 과도하게 높은(또는 낮은) 평점을 주는 타깃 스팸이다. 평균점수 방식은 이러한 공격에 매우 민감해 순위가 크게 왜곡되었지만, 제안 알고리즘은 스팸 사용자의 평판이 급격히 낮아짐에 따라 가중치가 거의 0에 수렴해 전체 순위에 미치는 영향이 최소화된다. IR 방식도 어느 정도 강인성을 보였지만, 상관계수 기반 방법이 특히 타깃 스팸에 대해 더 높은 복원력을 보여준다.
한계점으로는 평판 초기값 선택과 수렴 기준이 결과에 미치는 영향이 아직 충분히 분석되지 않았으며, 매우 높은 밀도의 스팸(전체 사용자의 30% 이상) 상황에서는 여전히 순위가 약간 변동한다. 또한, 피어슨 상관계수는 선형 관계에만 민감하므로 비선형적인 공격 패턴에 대해서는 추가적인 보완이 필요할 수 있다. 향후 연구에서는 베이지안 프레임워크와 결합하거나, 다중 상관 지표(스피어만, 켄달 등)를 혼합해 더욱 견고한 평판 모델을 구축하는 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기