협업 필터링 추천 시스템의 비정상 프로필 탐지

초록

본 논문은 협업 필터링 기반 추천 시스템에 삽입되는 ‘쉐일링’ 공격 프로필을 탐지하기 위해, 사용자 평점 행동과 아이템 분포 사이의 관계를 최소제곱 방식으로 모델링하고, 학습된 매핑을 이용한 회귀 탐지기를 제안한다. MovieLens-100K와 최신 소형 데이터셋을 대상으로 실험했으며, 기존 KNN 기반 탐지 방법보다 높은 정밀도와 재현율을 달성하였다.

상세 요약

이 연구는 협업 필터링 추천 시스템(CFRS)이 외부 공격자에 의해 조작될 위험성을 강조하고, 기존 탐지 기법이 사용한 “평점 행동 기반”과 “아이템 분포 기반” 두 축의 특징만으로는 공격 프로필을 충분히 구분하기 어렵다는 점을 지적한다. 논문은 이러한 한계를 극복하기 위해 두 특징 사이의 내재적 연관성을 정량화하는 새로운 매핑 모델을 제시한다. 구체적으로, 각 사용자의 평점 벡터와 아이템 선택 빈도 벡터를 각각 고차원 공간에 배치한 뒤, 최소제곱(Least‑Squares) 방법을 이용해 선형 변환 행렬 W를 추정한다. 이 과정은 W 가 정상 사용자에 대해 최소한의 재구성 오차를 보이도록 학습되며, 공격 프로필은 이 선형 관계를 위배하는 특성을 보인다.

학습된 W 를 기반으로, 새로운 사용자 프로필이 들어올 때 동일한 변환을 적용하고, 실제 아이템 분포와 예측된 분포 사이의 차이를 회귀 모델(예: Ridge Regression)로 정량화한다. 차이가 일정 임계값을 초과하면 해당 프로필을 ‘비정상’으로 판정한다. 이 접근법은 기존 KNN‑기반 거리 측정이 고차원 희소 데이터에서 발생시키는 차원의 저주와 노이즈 민감성을 완화한다는 장점이 있다.

실험 설계는 두 가지 MovieLens 데이터셋을 사용했으며, 다양한 공격 시나리오(전역 평균 공격, 랜덤 공격, 반대 공격 등)를 시뮬레이션하여 데이터에 삽입하였다. 평가 지표는 정확도, 정밀도, 재현율, F1‑스코어, 그리고 ROC‑AUC를 포함한다. 결과는 제안된 회귀 탐지기가 KNN‑기반 베이스라인에 비해 평균 8~12% 정도의 AUC 향상을 보였으며, 특히 고밀도 공격 상황에서 재현율이 크게 개선되었다. 또한, 모델 학습 및 탐지 단계에서의 시간 복잡도는 O(N·d²) (N: 사용자 수, d: 특성 차원) 수준으로, 실시간 서비스 적용 가능성을 시사한다.

한계점으로는 선형 매핑 가정이 복잡한 비선형 공격 패턴을 완전히 포착하지 못할 가능성이 있으며, 매개변수 λ (정규화)와 임계값 선택이 데이터셋마다 민감하게 작용한다는 점을 들 수 있다. 향후 연구에서는 커널 기반 최소제곱 혹은 딥러닝 기반 비선형 매핑을 도입해 탐지 성능을 더욱 강화하고, 다양한 도메인(음악, 전자상거래 등)으로의 일반화 검증이 필요하다.

초록

상세 요약

📜 논문 원문 (영문)