사용자 탐색 패턴으로 웹사이트 구조 최적화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 웹 서버 로그에서 사용자의 순차적 탐색 경로를 추출하고, “중간 참조 위치(Intermediate Reference Location, IRL)”와 “목적지 페이지(Destination Location, DL)”를 식별하는 알고리즘을 제안한다. IRL에 네비게이션 링크를 추가하거나 사이트 구조를 재배치함으로써 페이지 도달률과 전체 방문자 수를 향상시켰으며, 실제 통신사 온라인 주문 시스템에 적용한 실험 결과를 제시한다.

상세 분석

이 논문은 웹 사용자의 탐색 행동을 “뒤로 돌아(backtrack)”하는 순간을 핵심 신호로 활용한다는 점에서 흥미롭다. 사용자는 원하는 정보를 찾지 못하면 현재 페이지에서 이전 페이지로 이동하고, 그 이전 페이지를 “중간 참조 위치(IRL)”라 정의한다. IRL은 사용자가 기대하는 목적지와 실제 위치 사이의 인지적 간극을 나타내며, 이 위치에 추가적인 링크를 제공하면 사용자가 목적지에 더 빠르게 도달할 수 있다. 논문은 이를 정량화하기 위해 두 가지 주요 지표를 도입한다. 첫째, 각 페이지에 대한 체류 시간(t₁…tₙ)과 해당 사용자가 사이트에 머문 전체 시간(T₁…Tₙ)을 이용해 가중 평균 시간 TP를 계산한다. 여기서 damping factor δ(0.15~0.85)는 페이지의 인기 정도를 반영하도록 설계되었으며, 관리자에 의해 조정 가능하도록 했다. 둘째, IRL과 DL 사이의 전이 확률을 Ω값(1, 0.75, 0.5, 0.25…)으로 가중치화하고, βₖ = ΣΩ(Pₖ 위치) 로 각 IRL의 “목적지 발견 가능성”을 산출한다. βₖ들의 평균 SP를 기준으로 βₖ ≥ SP인 IRL을 “추천 IRL”로 선정하고, 이후 기록에서 해당 IRL 이후의 모든 후보를 삭제한다. 이는 불필요한 탐색 경로를 제거하고, 가장 효율적인 경로만을 남기는 일종의 pruning 과정이다.

알고리즘 구현은 비교적 단순하다. 페이지 배열을 순회하면서 인접 페이지가 동일하거나 직접 연결돼 있는지를 확인하고, 체류 시간이 임계값을 초과하면 DL, 미만이면 IRL로 표시한다. 이후 표 형태(D, AL, Ĩ₁…Ĩₙ)로 정리하고, 위에서 정의한 β와 Ω를 이용해 최적의 IRL을 도출한다. 이 과정은 로그 전처리 단계에서 HTML 외의 리소스(jpg, gif 등)를 제외하고, IP와 타임스탬프 기반으로 세션을 구분한다는 전제 하에 수행된다.

관련 연구와 비교했을 때, 기존 방법들은 주로 페이지 동시 등장 빈도, 클라이언트 사이드 스크립트 기반 프로파일링, 혹은 페이지 레이아웃 분석에 의존했다. 본 논문은 서버 로그만으로도 충분히 의미 있는 구조적 인사이트를 얻을 수 있다는 점에서 비용 효율성이 높다. 그러나 몇 가지 한계도 존재한다. 첫째, “뒤로 가기” 행동을 IRL로 단순 귀결하는데, 사용자가 브라우저 뒤로 가기 버튼을 눌러 이전 페이지로 돌아가는 경우와 사이트 내 내비게이션 링크를 클릭해 이동하는 경우를 구분하지 않는다. 둘째, 체류 시간 기반 임계값 설정에 δ값을 임의로 지정하는데, 실제 사용자 만족도와의 상관관계가 충분히 검증되지 않았다. 셋째, 실험은 한 기업의 주문 시스템에만 적용했으며, 다양한 도메인(예: 뉴스, 전자상거래, 교육)에서의 일반화 가능성은 추가 검증이 필요하다.

실험 결과는 두 개의 그래프를 통해 제시된다. 첫 번째 그래프는 최적화 전후의 목적지 페이지 히트 수를 월별로 비교했으며, 새로운 경로를 추가한 뒤 히트 수가 눈에 띄게 증가했다. 두 번째 그래프는 전체 방문자 수의 연간 추이를 보여, 최적화 후 방문자 수가 상승한 것을 확인할 수 있다. 논문은 약 20%의 목적지 페이지가 IRL과 실제 위치가 다르며, 이를 재배치함으로써 사용자 흐름을 개선했다고 주장한다.

전반적으로, 이 논문은 웹 로그 기반 탐색 패턴 마이닝을 통해 웹사이트 구조를 데이터 기반으로 재설계하는 실용적인 프레임워크를 제공한다. IRL/ DL 개념과 시간 가중 평균, 확률 가중치(Ω, β) 등을 결합한 접근법은 이해하기 쉽고 구현 비용이 낮으며, 실제 비즈니스 현장에서 가시적인 효과를 입증했다. 향후 연구에서는 페이지 내용 기반 유사도 분석, 머신러닝 기반 예측 모델 도입, 그리고 멀티디바이스 로그 통합 등을 통해 IRL/ DL 식별 정확도를 높이고, 보다 정교한 개인화 네비게이션을 제공할 여지가 있다.

사용자 탐색 패턴으로 웹사이트 구조 최적화

초록

상세 분석

댓글 및 학술 토론

의견 남기기