정확한 웹 사용 패턴 탐색을 위한 세션 재구성 및 토폴로지 기반 Apriori 기법
본 논문은 웹 서버 로그로부터 사용자의 세션을 재구성하는 정확성을 높이고, 재구성된 세션을 이용해 빈번한 탐색 경로를 발견하는 새로운 방법을 제안한다. 시간 제한과 페이지 연결성을 동시에 고려한 Smart‑SRA 알고리즘과, 웹 페이지 토폴로지를 활용해 후보 아이템셋을 확장하는 수정된 Apriori 기법을 도입하였다. 평가를 위해 에이전트 시뮬레이터를 구축해 다양한 사용자 행동 모델을 생성하고, 제안 기법의 정확도를 실험적으로 검증하였다.
저자: Murat Ali Bayir, Ismail Hakki Toroslu, Ahmet Cosar
본 논문은 웹 사용 마이닝(Web Usage Mining, WUM)의 핵심 과제인 세션 재구성(Session Reconstruction)과 빈번 패턴 발견(Frequent Pattern Discovery)을 통합적으로 개선하는 방법을 제시한다. WUM은 웹 서버 로그를 기반으로 사용자의 탐색 행동을 분석해 프리페칭, 링크 예측, 사이트 구조 최적화 등 다양한 응용에 활용된다. 그러나 로그는 무상태(stateless)이며, 프록시나 클라이언트 캐시로 인해 실제 요청이 누락되는 등 세션을 정확히 복원하기 어려운 특성을 가진다. 기존의 반응형(reactive) 접근은 주로 시간 기반(전체 세션 시간, 페이지 체류 시간) 혹은 네비게이션 기반(링크 존재 여부) 히어리스틱에 의존했으며, 각각의 한계가 명확했다. 시간 기반은 페이지 간 연결성을 무시해 비현실적인 세션을 생성하고, 네비게이션 기반는 역방향 이동을 인위적으로 삽입해 세션을 과도하게 길게 만든다. 또한, 프로액티브(proactive) 전략은 쿠키나 자바 애플릿을 이용하지만, 보안·프라이버시 문제로 비활성화되는 경우가 많아 실용성이 떨어진다.
이에 저자들은 두 가지 주요 기여를 한다. 첫 번째는 Smart‑SRA(Smart Session Reconstruction Algorithm)이다. Smart‑SRA는 (1) 타임스탬프 순서 규칙: 연속 페이지의 타임스탬프가 증가하고, 페이지 체류 시간 ρ 이하이며, 전체 세션 지속 시간 δ 이하인 경우만 허용한다. (2) 토폴로지 규칙: 연속 페이지 사이에 실제 하이퍼링크가 존재해야 한다는 조건을 추가한다. 알고리즘은 먼저 시간 기준을 적용해 로그를 짧은 시퀀스로 분할하고, 이후 토폴로지 규칙을 적용해 최대 서브세션을 추출한다. 이 과정에서 “링크가 없는 페이지는 후보 세션에서 제거하고, 이전 세션의 마지막 페이지와 연결될 경우에만 새로운 세션에 붙인다”는 반복 절차를 통해 역방향 삽입을 방지한다. 결과적으로 Smart‑SRA는 기존 히어리스틱 대비 세션 재구성 정확도가 현저히 향상된다.
두 번째 기여는 토폴로지 기반 Apriori 기법이다. 전통적인 Apriori는 빈도 기준만으로 아이템셋을 확장하지만, 웹 페이지 간 연결 관계를 고려하면 실제 사용자가 이동 가능한 경로만을 후보로 삼을 수 있다. 논문은 웹 사이트 토폴로지를 그래프 형태로 모델링하고, 각 반복 단계에서 현재 빈도 아이템셋의 확장 후보를 “현재 아이템셋의 마지막 페이지와 연결된 페이지”로 제한한다. 이렇게 하면 탐색 공간이 급격히 축소되고, 의미 없는 조합을 배제함으로써 연속 탐색 경로(예: P1→P20→P23)의 빈도를 정확히 측정할 수 있다. 실험 결과, 토폴로지 확장을 적용한 Apriori는 재구성된 세션만을 이용한 전통적 Apriori보다 높은 정확도와 재현율을 보였다.
평가 방법으로는 자체 개발한 에이전트 시뮬레이터를 사용했다. 시뮬레이터는 (1) 무작위 웹 토폴로지(노드 300, 평균 아웃디그리 15) 생성, (2) 네 가지 기본 사용자 행동(시작 페이지 선택, 현재 페이지 링크 따라 이동, 이전 페이지 중 하나로 뒤로 가기, 세션 종료) 및 시간 분포(평균 체류 2.12분, 표준편차 0.5분) 모델링, (3) 파라미터 STP(세션 종료 확률), LPP(이전 페이지 선택 확률), NIP(신규 시작 페이지 선택 확률)를 다양하게 변동시켜 10,000개의 에이전트를 시뮬레이션한다. 시뮬레이터는 클라이언트/프록시 캐시 효과를 반영해 서버 로그에 기록되지 않은 요청을 제외함으로써, 로그 기반 재구성 알고리즘이 복원해야 할 “정답” 세션을 제공한다.
실험에서는 Smart‑SRA와 기존 시간‑기반, 네비게이션‑기반 히어리스틱을 비교하였다. 정확도는 “재구성된 세션이 실제 세션을 부분수열로 포함하는 비율”로 정의하였다. Smart‑SRA는 평균 78% 이상의 정확도를 기록했으며, 기존 방법은 55~65% 수준에 머물렀다. 이어서 빈번 패턴 발견 단계에서는 토폴로지 확장 Apriori와 전통적 Apriori를 비교했으며, 토폴로지 기반 방법은 86% 이상의 정확도를 달성, 전통적 방법은 70% 내외에 그쳤다. 특히, 세션 재구성 정확도가 70% 수준에 머물더라도, 패턴 발견 단계에서 높은 정확도를 유지함으로써 “세션 재구성 단계에 추가적인 노력(예: 토폴로지 활용)이 충분히 가치 있다”고 주장한다.
논문의 한계점도 명시한다. 연구는 정적 페이지에만 초점을 맞추어 동적 컨텐츠가 포함된 현대 웹 사이트에 대한 적용 가능성을 검증하지 않았다. 또한, 시뮬레이터 기반 평가이므로 실제 운영 환경에서 발생할 수 있는 복잡한 사용자 행동(멀티 디바이스, 쿠키 비활성화 등)에는 한계가 있다. 파라미터(STP, LPP, NIP)의 민감도 분석이 충분히 이루어지지 않아, 실제 적용 시 최적 파라미터 설정이 필요하다. 그럼에도 불구하고, 세션 재구성에 시간·토폴로지 복합 제약을 도입하고, 이를 기반으로 Apriori를 확장한 접근은 웹 사용 마이닝 분야에 새로운 연구 방향을 제시한다. 향후 연구에서는 동적 페이지 지원, 실무 로그 적용, 파라미터 자동 튜닝 등을 통해 실용성을 높일 수 있을 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기