웹오브사이언스 초대량 데이터 검색 전략 개발
초록
본 논문은 웹오브사이언스(WoS)에서 100 000건을 초과하는 검색 결과를 효율적으로 얻기 위한 실험적 방법을 제시한다. 미국의 연도별 전체 과학 생산량을 사례로, ‘Source’ 필드를 이용해 논문을 여러 구간으로 나누고, 겹침을 제거하는 부울식으로 합쳐 정확도를 높였다. 팀 기반 협업이 복잡한 검색 전략 수립에 필수적임을 강조한다.
상세 분석
이 연구는 WoS 인터페이스가 단일 쿼리당 최대 100 000건만 반환한다는 기술적 제한을 극복하기 위한 구체적 절차를 제시한다. 먼저, 연구자는 ‘Source’ 필드(저널명)라는 비교적 균등하게 분포된 메타데이터를 선택하였다. 이는 특정 국가·연도에 속하는 논문이 저널별로 고르게 퍼져 있기 때문에, 저널명을 알파벳 순서 혹은 특정 접두어 기준으로 구분하면 각 구간의 결과 수를 100 000 이하로 조절할 수 있다. 실제로 미국 2022년 논문을 대상으로 26개의 알파벳 구간(A‑F, G‑L 등)으로 나누어 각각 쿼리를 실행하였다.
각 구간에서 얻은 레코드 수를 확인한 뒤, 일부 구간이 여전히 100 000건을 초과하면 추가적인 서브쿼리(예: 연도, 문서 유형)와 결합해 세분화한다. 이렇게 하면 전체 결과를 여러 부분집합으로 나눌 수 있다. 그러나 구간 나눔 과정에서 동일 논문이 여러 구간에 포함될 위험이 존재한다. 이를 방지하기 위해 연구팀은 ‘NOT’ 연산자를 활용한 겹침 제거 논리를 설계하였다. 예를 들어, 구간 A‑F 결과에 대해 구간 G‑L 결과와 겹치는 레코드를 ‘AND NOT’ 구문으로 제외함으로써 중복을 최소화하였다.
또한, 팀 기반 작업이 강조된다. 검색 전략 설계, 쿼리 실행, 결과 검증, 중복 제거 등 각 단계마다 서로 다른 전공(정보학, 도서관학, 분야별 전문가)의 협업이 필요했다. 팀원 간의 지속적인 커뮤니케이션을 통해 쿼리 문법 오류를 조기에 발견하고, 결과 품질을 검증하였다.
이 방법의 장점은 기존 WoS 제한을 우회하면서도 전체 데이터셋을 거의 완전하게 회수할 수 있다는 점이다. 다만, 저널명 기반 구분이 모든 분야에 동일하게 적용되지는 않으며, 저널명 변동이나 다중 언어 저널명 처리 시 추가적인 전처리가 필요하다. 또한, 수천 개의 서브쿼리를 관리해야 하므로 자동화 스크립트(예: Python + WoS API)와 같은 도구 활용이 실무에서 권장된다.
댓글 및 학술 토론
Loading comments...
의견 남기기