웹 로그 데이터 기반 퍼지 클러스터링 사용 프로파일 마이닝

초록

본 논문은 웹 로그에서 추출한 세션 정보를 퍼지 클러스터링 기법으로 그룹화하여 사용자 사용 프로파일을 자동으로 생성하는 방법을 제안한다. 전처리 단계에서 로그 정제와 세션 식별을 수행하고, 각 세션을 URL 방문 빈도 벡터로 변환한다. 이후 퍼지 C‑means 알고리즘을 적용해 중복성을 허용하는 클러스터를 형성함으로써 사용자의 다중 관심사를 효과적으로 포착한다. 실험 결과, 전통적인 K‑means 대비 클러스터 품질과 프로파일 해석성이 향상된 것을 확인하였다.

상세 요약

이 연구는 웹 사용 로그의 방대한 원시 데이터를 의미 있는 사용자 프로파일로 전환하기 위해 두 가지 핵심 과정을 설계한다. 첫 번째는 전처리 단계로, 로그 파일에서 불필요한 이미지, CSS, 스크립트 요청을 필터링하고, IP 주소와 사용자 에이전트를 기반으로 개별 사용자를 식별한다. 이어서 일정 시간(보통 30분) 이상의 비활동을 세션 경계로 정의하여, 각 사용자의 연속적인 페이지 방문을 하나의 세션으로 묶는다. 두 번째는 지식 추출 단계로, 각 세션을 고차원 벡터 공간에 매핑한다. 여기서 차원은 전체 URL 집합의 크기와 동일하며, 각 차원은 해당 URL에 대한 방문 횟수 혹은 가중치를 나타낸다. 전통적인 군집화 기법은 각 데이터 포인트가 하나의 클러스터에만 속하도록 강제하지만, 웹 사용자는 다중 관심사를 동시에 가질 수 있다. 이를 해결하기 위해 퍼지 C‑means(Fuzzy C‑means, FCM) 알고리즘을 적용한다. FCM은 각 세션이 모든 클러스터에 대해 소속도(멤버십 값)를 할당하도록 하여, 사용자가 여러 클러스터에 부분적으로 귀속될 수 있게 만든다. 알고리즘은 초기 클러스터 중심을 무작위로 설정한 뒤, 멤버십 값과 중심을 반복적으로 업데이트하며 수렴한다. 수렴 기준은 멤버십 변화량이 사전에 정의된 임계값 이하가 될 때이다. 실험에서는 클러스터 수(k)를 5~10 범위에서 변동시켜 최적의 군집 구조를 탐색했으며, 클러스터 품질 평가는 퍼지 실루엣 계수(Fuzzy Silhouette Coefficient)와 내부 응집도, 외부 분리도를 종합적으로 고려했다. 결과적으로 FCM은 전통적인 K‑means에 비해 퍼지 실루엣 값이 평균 12% 상승했으며, 각 클러스터가 의미하는 페이지 카테고리(예: 전자상거래, 뉴스, 포럼 등)와 사용자의 실제 행동 패턴 간의 일치도가 높았다. 또한 멤버십 값은 마케팅 담당자가 특정 사용자에게 다중 관심사 기반 맞춤형 콘텐츠를 제공하는 데 활용될 수 있는 정량적 근거를 제공한다.

초록

상세 요약

📜 논문 원문 (영문)