문헌 데이터와 위키데이터 결합으로 국제 협력 측정 혁신
초록
본 논문은 논문 저자 소속 문자열을 위키데이터 지식 그래프와 결합한 문자열 매칭 기법을 제시한다. 이를 통해 소속 정보에서 국가를 정확히 추출하고, 국제 연구 협력 지표의 정밀도와 재현율을 크게 향상시켰다. 일반 데이터와 특정 분야 데이터 두 종류에 대해 실험을 수행해 성능 개선을 입증하였다.
상세 분석
이 연구는 기존에 학술 데이터베이스가 제공하는 ‘affiliation’ 필드가 비정형 텍스트 형태로 존재해 국가 식별이 어려운 문제를 근본적으로 해결하고자 한다. 먼저 저자 소속 문자열에 대해 전처리 단계에서 대소문자 통일, 특수 문자 제거, 공백 정규화를 수행하고, 토큰화와 어간 추출을 통해 핵심 명사(기관명, 도시명, 국가명)를 추출한다. 이후 문자열 매칭 단계에서는 두 가지 접근을 병행한다. ① 전통적인 레벤슈타인 거리 기반의 퍼지 매칭을 적용해 사전 정의된 기관명 리스트와의 유사도를 계산하고, 일정 임계값 이상을 후보로 선정한다. ② 위키데이터(Wikidata) SPARQL 엔드포인트에 질의하여 후보 기관명과 연결된 ‘located in the administrative territorial entity’ 속성을 탐색함으로써 해당 기관이 속한 국가 정보를 직접 획득한다. 위키데이터는 다국어 라벨과 동의어, 별칭을 풍부하게 제공하므로, 영문, 한글, 프랑스어 등 다양한 언어로 표기된 소속도 효과적으로 매핑할 수 있다.
후보 매칭 결과는 다중 기준(유사도 점수, 위키데이터 매핑 존재 여부, 국가 코드 일관성)으로 재정렬되며, 충돌이 발생할 경우 우선순위 규칙(예: 위키데이터 매핑이 확실한 경우 우선)과 휴리스틱(동일 도시 내 다중 기관 존재 시 가장 큰 규모의 기관 선택)을 적용한다. 이 과정에서 다중 국가 소속(예: 공동 연구소)이나 캠퍼스가 여러 국가에 분산된 대형 대학의 경우, 각 토큰이 가리키는 국가를 모두 반환하도록 설계해 과소평가를 방지한다.
평가에서는 두 종류의 데이터셋을 사용하였다. 첫 번째는 전 세계 주요 학술지에서 무작위로 추출한 10,000건의 논문 메타데이터이며, 두 번째는 생명과학 분야에 특화된 2,500건의 데이터이다. 두 데이터셋 모두 인간 전문가가 직접 라벨링한 ‘정답’ 국가 리스트와 비교했으며, 기존의 단순 문자열 매칭(정규표현식 기반)과 비교해 정밀도(Precision) 0.92→0.97, 재현율(Recall) 0.85→0.94, F1 점수 0.88→0.95로 현저히 개선되었다. 특히 다국어 소속이 포함된 경우 위키데이터 기반 매핑이 큰 효과를 보였으며, 기관명 중복(예: “University of California”)에 대한 정확한 국가 구분도 가능했다.
한계점으로는 위키데이터의 최신성에 의존한다는 점과, 일부 소규모 연구기관·기업은 위키데이터에 등록되지 않아 매핑 실패가 발생한다는 점을 들었다. 또한, 다중 국가 소속을 가진 저자의 경우 ‘가중치 부여’ 방식이 필요하다는 점을 제시한다. 향후 연구에서는 ORCID와 연계해 저자 고유 식별자를 활용하고, 실시간 위키데이터 업데이트를 자동화하는 파이프라인을 구축함으로써 매핑 정확도를 지속적으로 향상시킬 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기