엔트로피 기반 개인화 웹 추천 시스템

초록

본 논문은 사용자 세션을 두 단계로 나누어 각 단계에서 엔트로피를 계산하고, 레벨 I에서 선정된 추천자 중 레벨 II에서 엔트로피가 감소한 경우만을 신뢰할 수 있는 추천자로 간주한다. 이를 통해 대규모 웹 환경에서도 효율적인 사용자 기반 협업 필터링을 구현하고, 최종적으로 신뢰할만한 추천자들의 상위 N개 아이템을 온라인 사용자에게 제공한다.

상세 분석

본 연구는 웹 추천 시스템의 확장성 문제를 해결하기 위해 엔트로피 기반 유사도 측정을 도입하였다. 기존 협업 필터링은 사용자‑아이템 행렬이 희소해지면 계산량이 급증하고, 신뢰할 수 없는 이웃 사용자가 추천 품질을 저하시킨다는 한계가 있다. 이를 보완하기 위해 저자들은 사용자 세션을 두 개의 레벨로 분할한다. 레벨 I에서는 전체 세션 로그를 일정 길이의 윈도우로 나누어 각 사용자 쌍에 대해 방문 페이지 집합의 교차 비율을 기반으로 엔트로피를 산출한다. 엔트로피가 낮을수록 두 사용자의 행동 패턴이 일관되며, 이는 전통적인 코사인 유사도보다 정보 이론적 관점에서 더 직관적인 유사도 지표가 된다.

레벨 II에서는 레벨 I에서 후보로 선정된 추천자들의 세션을 다시 세분화하여, 동일한 윈도우 내에서의 엔트로피 변화를 측정한다. 레벨 I에서 낮은 엔트로피를 보였지만 레벨 II에서 엔트로피가 상승한 경우는 사용자의 일시적 관심 변동이나 노이즈로 판단하고, 반대로 레벨 II에서 엔트로피가 레벨 I보다 더 낮아진 경우에만 ‘신뢰할 수 있는 추천자’로 인정한다. 이러한 두 단계 필터링은 불필요한 이웃을 제거함으로써 계산 복잡도를 크게 감소시키며, 동시에 추천 정확도를 향상시킨다.

실험에서는 공개된 웹 로그 데이터셋을 활용해 기존의 Pearson‑correlation 기반 협업 필터링, Jaccard 유사도, 그리고 최신 딥러닝 기반 추천 모델과 비교하였다. 결과는 정밀도·재현율·F1‑score 모두에서 엔트로피 기반 방법이 우수함을 보여준다. 특히, 사용자 수가 10배 이상 증가했을 때도 연산 시간 증가율이 30% 미만에 그쳐 확장성 측면에서 큰 장점을 가진다.

한계점으로는 엔트로피 계산에 필요한 세션 길이와 윈도우 크기 설정이 데이터 특성에 민감하다는 점이다. 파라미터 튜닝 없이 적용하면 성능이 급격히 저하될 수 있다. 또한, 현재는 순수 사용자 기반 협업만을 다루고 있어 아이템 기반 혹은 하이브리드 모델과의 결합 가능성은 추가 연구가 필요하다.

요약하면, 이 논문은 정보 이론을 협업 필터링에 접목함으로써 이웃 선정 과정에서의 신뢰성을 정량화하고, 두 단계 엔트로피 검증을 통해 대규모 웹 환경에서도 실시간으로 개인화된 추천을 제공할 수 있는 실용적인 프레임워크를 제시한다.