인용 네트워크 활용 대규모 저자 이름 구분 알고리즘
초록
본 논문은 Web of Science 전체 데이터(4,700만 논문)를 대상으로, 저자와 인용 그래프만을 이용해 저자 이름을 자동으로 구분하는 새로운 알고리즘을 제시한다. 논문 간 유사도 점수를 기반으로 두 단계의 병합 군집화를 수행하고, h‑index 재현 정확도를 최적화 목표로 파라미터를 튜닝한다. 검증 결과, 전체 데이터에 대해 87 %의 재현율과 88 %의 정밀도를 달성했으며, 1대의 머신에서 하루 이내에 처리가 가능함을 보였다. 또한, 실험적으로 얻은 h‑index 분포가 제안된 이론 모델과 높은 일치성을 보이며, h‑index가 학술 평가에 갖는 의미를 재조명한다.
상세 분석
이 연구는 기존 저자 구분 방법이 주로 이름, 소속, 이메일 등 풍부한 메타데이터에 의존하는 반면, 오래된 논문이나 일부 데이터베이스에서는 이러한 정보가 결핍되어 있다는 점을 지적한다. 저자와 인용 그래프만을 활용한다는 접근은 두 가지 핵심 아이디어에 기반한다. 첫째, 논문 간 유사도 sᵢⱼ를 네 가지 요소(공동 저자, 자기인용, 공통 참고문헌, 공통 인용 논문)로 정의하고, 각 요소에 가중치 α를 부여해 정규화한다. 특히 공동 저자와 인용 논문은 오버랩 계수를 사용해 길이가 긴 리스트에 대한 편향을 보정한다. 둘째, 이 유사도를 이용해 두 단계의 병합 군집화를 수행한다. 초기 단계에서는 유사도 임계값 β₁을 초과하는 논문 쌍을 연결해 강하게 연결된 컴포넌트를 형성하고, 이를 1차 클러스터로 정의한다. 두 번째 단계에서는 클러스터 간 유사도 S_γ,κ를 계산해 β₃ 이상이면 클러스터를 병합한다. 추가적으로 β₂, β₄ 임계값을 통해 남은 논문을 기존 클러스터에 할당한다.
파라미터 최적화는 기존의 정밀도·재현율을 넘어, h‑index 재현율 R_h를 핵심 목표로 설정한다. 이를 위해 Google Scholar 프로필을 골드 스탠다드로 삼아, 각 연구자의 실제 h‑index와 알고리즘이 재구성한 클러스터의 h‑index 비율을 측정한다. 또한, 이름 이니셜 기반 정밀도 P_i를 사용해 ‘덩어리화(lumping)’ 오류를 상한선으로 추정한다. 3,000개의 성에 대해 무작위 파라미터 10,000세트를 실험한 결과, 네 가지 메타데이터(공동 저자, 자기인용, 참고문헌, 인용 논문)를 모두 활용했을 때 가장 낮은 오류 영역을 확보했다.
실제 구현에서는 47 백만 논문, 141 백만 공동 저자 엔트리, 526 백만 인용 관계를 메모리 효율적으로 처리하도록 설계했으며, 단일 서버(다중 코어, 충분한 RAM)에서 전체 데이터셋을 하루 이내에 완전 구분한다. 결과적으로, 전체 데이터에 대해 평균 재현율 87 %, 정밀도 88 %를 달성했으며, 특히 h‑index가 높은 연구자(상위 10 % 내)에서 재현율이 95 % 이상으로 상승한다.
마지막으로, 구분된 저자 클러스터를 이용해 전체 학계의 h‑index 분포 P(h)를 추정하고, 간단한 확률 모델(예: 로그 정규분포 기반)과 비교했다. 실험적 분포는 파레토 법칙과는 차이가 나며, 제안된 모델이 실제 데이터와 높은 적합도를 보였다. 이는 h‑index가 단순히 생산성·인용량의 곱이 아니라, 학문 네트워크 구조와도 깊은 연관이 있음을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기