초기 기반 이름 구분이 대규모 공동저자 네트워크에 미치는 왜곡 효과

초록

본 연구는 초기 기반 이름 구분(initial‑based disambiguation)이 생물학·컴퓨터과학·나노과학·신경과학·물리학 및 PNAS 저널의 공동저자 네트워크 분석에 미치는 영향을 실증적으로 검증한다. 알고리즘 기반 정밀 구분을 ‘실제’ 정답으로 삼아 세 가지 초기 구분 방식(A, B, C)의 오류를 측정했으며, 저자 수 감소, 네트워크 밀도·클러스터링 증가, 핵심 저자 순위 변동 등 다양한 구조적 왜곡을 발견했다. 특히 성·이니셜이 흔한 아시아 이름에서 오류가 집중되는 것으로 나타났다.

상세 분석

이 논문은 대규모 학술 데이터베이스에서 흔히 사용되는 초기 기반 이름 구분이 공동저자 네트워크의 통계적 특성을 어떻게 왜곡하는지를 정량적으로 분석한다. 먼저 저자 식별의 ‘실제’ 정답을 만들기 위해 기존 알고리즘(예: 문자열 매칭, 공동저자·소속 정보 활용)으로 5개 분야와 PNAS 저널의 레코드를 전처리하고, 이를 기준 데이터셋으로 설정하였다. 이후 세 가지 전통적인 초기 기반 구분 방식을 적용했는데, 각각은 (1) 성 + 첫 번째 이름 이니셜, (2) 성 + 두 개 이니셜, (3) 성 + 전체 이름 이니셜(다중 이니셜)이다. 각 방식별로 저자 수, 연결 성분 수, 평균 최단 경로, 클러스터링 계수, 동질성(assortativity) 등 네트워크 지표를 비교하였다. 결과는 일관되게 초기 기반 구분이 실제보다 저자 수를 크게 축소시키고, 네트워크를 과도하게 연결된 형태로 만들며, 평균 최단 경로와 동질성을 낮춘다는 것을 보여준다. 특히 평균 생산성(연간 논문 수)과 평균 공동저자 수는 인위적으로 상승하고, 가장 큰 연결 성분의 비중이 과대평가된다. 저자 순위 분석에서는 상위 10위 생산량·협업 저자 중 절반 이상이 초기 구분 결과에서 누락되거나 다른 저자와 혼합되는 현상이 관찰되었다. 오류 원인 분석에서는 성과 이름 이니셜이 동일한 아시아계(특히 중국·한국·일본) 이름이 전체 오류의 60% 이상을 차지함을 확인하였다. 이는 문화적 명명 규칙(성·이름 순서, 이니셜 중복)과 데이터베이스에 입력된 영문 표기의 일관성 부족이 복합적으로 작용한 결과로 해석된다. 논문은 이러한 왜곡이 연구 결론에 미치는 잠재적 위험성을 강조하며, 초기 기반 구분 대신 정교한 알고리즘 기반 식별을 권고한다.