기존 테스트 컬렉션을 OXPath으로 손쉽게 확장하기
초록
본 논문은 웹 데이터 추출 언어 OXPath을 활용해 사회과학 포털 Sowiport에서 메타데이터를 수집하고, 기존 TREC‑style 테스트 컬렉션인 GIRT4에 추가 필드를 삽입해 GIRT4‑XT를 만든 사례를 제시한다. OXPath의 선언적 스크립트만으로 수천 건의 레코드를 자동 수집·정제할 수 있음을 보이며, 기존 컬렉션을 재활용해 bibliometrics‑enhanced IR 등 새로운 평가 시나리오에 활용할 수 있음을 입증한다.
상세 분석
이 연구는 테스트 컬렉션 확장의 두 가지 핵심 과제를 동시에 해결한다. 첫째, 기존 컬렉션의 문서 집합에 풍부한 메타데이터를 부착함으로써, 원래의 토픽·판단 기준은 그대로 유지하면서도 새로운 검색·분석 과제를 수행할 수 있게 만든다. 둘째, 이를 위해 별도의 API 개발이나 복잡한 크롤러 구현 없이, OXPath이라는 선언형 웹 추출 언어만으로 작업을 수행한다는 점이다. OXPath은 XPath 기반에 클릭·폼 입력·페이지 전환·반복(Kleene star) 등 웹 인터랙션을 기술하는 5가지 확장 요소를 제공한다. 이러한 기능을 활용해 논문은 Sowiport의 SOLIS 데이터베이스에 접근, ‘ISSN’, ‘ISBN’, ‘editor’, ‘publisher’, ‘location’, ‘page numbers’ 등 6개의 신규 필드를 자동으로 추출한다.
구현 단계에서는 OXPath 스크립트를 10여 줄 정도로 작성해, 1) 포털 메인 페이지 진입, 2) SOLIS 필터 적용, 3) 페이지당 100건씩 결과 리스트 열람, 4) 각 레코드 클릭 후 상세 페이지에서 목표 메타데이터 파싱, 5) 페이지 네비게이션을 통한 전체 결과 순회(‘next’ 버튼 반복) 등을 순차적으로 수행한다. 추출된 데이터는 XML 혹은 CSV 형태로 직렬화돼 기존 GIRT4 레코드와 ‘DOCID’와 ‘acquisition id’를 키로 매핑한다. 전체 15,319개 문서 중 13,214개(≈86%)가 성공적으로 풍부한 메타데이터와 결합되었으며, 이는 사회과학 분야 문서에 한정된 점을 제외하면 높은 커버리지를 보여준다.
성능 측면에서는 OXPath이 전체 페이지를 렌더링하고 DOM을 완전히 파싱해야 하므로, 수백만 페이지를 처리할 경우 며칠이 소요될 수 있다. 병렬 처리 기능이 기본 제공되지 않아 외부 스레드 풀이나 분산 프레임워크와 연계해야 한다는 한계가 있다. 또한, 현재 지원되는 개발 도구가 제한적이며, IDE 플러그인(예: Atom 확장) 정도만 존재한다. 그럼에도 불구하고 메모리 효율성이 뛰어나고, 복잡한 정규식이나 스크립트 로직 없이 선언형 한 줄로 대규모 데이터를 수집할 수 있다는 장점이 두드러진다.
향후 연구 방향으로는 OXPath을 이용해 완전 신규 테스트 컬렉션을 구축하거나, PubMed·CrossRef 등 다른 학술 데이터베이스와 연계해 TREC Genomics Track과 같은 도메인‑특화 컬렉션을 자동 확장하는 방안을 제시한다. 또한, 속도 개선을 위한 병렬 실행 엔진 개발 및 GUI 기반 스크립트 작성 지원 도구가 마련된다면, 비전문가도 손쉽게 대규모 메타데이터 수집 파이프라인을 구축할 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기