웹 사용 분석을 통한 새로운 과학 지표와 공동 이용 분석
본 논문은 INIST의 디지털 서지 데이터베이스와 연계된 Miri@d 서버를 활용해 웹 사용 로그, 서지 기록, 전자상거래 데이터를 통합 분석한다. 사용자 검색·조회·구매 행태를 정량화하는 새로운 지표인 웹 사용성 지수(WUF)와 고객 주문 지수(COF)를 제안하고, 이들 지표를 기반으로 공동 이용(co‑usage) 네트워크를 구축한다. 통계 엔진은 일·주·월·연 단위로 사전 계산된 데이터를 제공하며, 사용자는 인터랙티브하게 맞춤형 통계를 생성…
저자: ** Xavier Polanco, Ivana Roche, Dominique Besagni (Institut de l’Information Scientifique et Technique – INIST / CNRS
본 논문은 웹 기반 과학·기술 정보(STI) 활용을 정량화하기 위한 새로운 분석 프레임워크와 시스템을 제시한다. 저자들은 프랑스 국립과학기술정보연구소(INIST)에서 운영하는 디지털 서지 데이터베이스인 Article@INIST와 연계된 Miri@d 서버를 구축하고, 이를 통해 웹 사용 로그, 서지 메타데이터, 전자상거래(문서 주문) 데이터를 통합적으로 수집·분석한다.
시스템 구조는 크게 두 부분으로 나뉜다. 첫 번째는 개념 모델로, 로그 파일, 서지 데이터, 상업 데이터라는 세 가지 데이터 패밀리를 정의한다. 두 번째는 실제 구현으로, 외부 시스템(DM: 문서 전달 관리, CM: 고객 관리, LM: 도서관 관리)으로부터 원시 데이터를 받아 QUERY(검색 질의), DISPLAY(조회 기록), ORDER(주문 기록), BIBLIO(서지 레코드) 등 다섯 개의 내부 데이터베이스에 저장한다. STAT 데이터베이스는 이들 데이터베이스를 기반으로 사전 계산된 통계치를 보관하며, 일·주·월·연 단위로 자동 업데이트된다.
Miri@d가 제공하는 주요 통계 지표는 크게 세 범주로 구분된다. ① 웹 사용자·검색 지표: 질의 건수, 질의어(제목, 저자, 키워드)별 빈도, 사용자 국가·TLD 분포 등. ② 서지 이용 지표: 조회된 레코드 수, 저널·연도·저자·출판국가별 분포, 가장 많이 조회된 저널·논문 목록 등. ③ 전자상거래 지표: 주문 건수, 고객 국가·활동 분야별 주문 분포, 가장 많이 주문된 저널·논문 목록 등.
특히 저자들은 두 가지 새로운 웹 사용 지표를 정의한다. 웹 사용성 지수(WUF)는 특정 저널의 전체 논문 수 대비 사용자가 실제로 조회한 논문 수의 비율을 나타낸다. 이는 시간 구간(t₀~t₁)과 출판 연도(PY)를 변수로 하여, 정보 노후화 효과를 반영할 수 있다. 고객 주문 지수(COF)는 동일한 방식으로 저널별 주문 건수를 전체 논문 수로 정규화한다. 두 지표 모두 저널·연도별 가중 평균을 통해 장기적인 이용 추세와 최신성 변화를 파악한다.
논문은 2002년 한 해의 실제 데이터를 이용해 시스템을 시연한다. 검색 측면에서는 135개 국가에서 1,000,000건 이상의 질의가 발생했으며, 프랑스 사용자가 전체 검색의 77 %를 차지했다. 조회 측면에서는 ‘Macromolecules’, ‘Journal of Applied Polymer Science’ 등 10개 저널이 상위 10위에 올랐으며, 각각 0.16·0.18의 WUF를 기록했다. 주문 측면에서는 상업 기업이 전체 주문의 53.8 %를 차지했으며, ‘Physical Review Letters’와 같은 물리학 저널이 높은 COF를 보였다. 또한 고객 활동 분야별 주문 분포를 제시해, 연구기관·고등교육·병원 등 다양한 사용자 그룹의 이용 패턴을 드러냈다.
이와 같은 정량적 지표와 통계 엔진은 전통적인 인용 기반 서지계량학을 보완한다. 웹 로그는 실시간 이용 행태를 반영하므로, 연구자·기관·출판사의 전략적 의사결정에 직접 활용될 수 있다. 또한, 사전 계산된 STAT 데이터베이스와 인터랙티브 분석 기능을 통해 비전문가도 손쉽게 데이터 마이닝을 수행하도록 지원한다.
논문의 한계점으로는 로그 데이터의 사용자 식별 정확도(프록시·IP 변동)와 서지 메타데이터의 불완전성(저자 소속 국가 미기재) 등이 있다. 향후 연구에서는 ORCID, CrossRef 등 외부 식별자를 연계해 데이터 정합성을 높이고, 머신러닝 기반 주제 모델링을 도입해 보다 정교한 공동 이용(co‑usage) 클러스터를 도출할 필요가 있다.
결론적으로, Miri@d 시스템은 웹 사용 로그와 서지·상업 데이터를 통합해 새로운 과학 지표와 공동 이용 분석을 제공함으로써, 디지털 과학 정보 환경에서의 정량적 평가와 관리 의사결정을 지원한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기