논문 데이터로 성씨의 지리적 기원 추적하기

초록

본 논문은 학술 데이터베이스에 등재된 저자들의 성씨 정보를 활용해 성씨의 지리적 원천을 추정하는 두 가지 방법을 제시한다. 첫 번째는 가장 빈도가 높은 국가와 Kullback‑Leibler(KL) 발산을 이용해 확률적 매칭을 수행하고, 두 번째는 Gini 계수를 통해 국가별 분포의 불균형을 측정한다. 두 방법 모두 통제군(실제 출신 국가가 알려진 저자)으로 검증했으며, 초기 결과는 유망하지만 추가 검증이 필요함을 강조한다.

상세 요약

이 연구는 기존에 인구유전학·인구통계학에서 성씨를 지역·민족 지표로 활용하던 전통을 학술계 이동 흐름 분석에 확장하려는 시도이다. 데이터는 Scopus·Web of Science 등 대형 인용 데이터베이스에서 저자명, 소속기관, 논문 발행 연도 등을 추출했으며, 전처리 단계에서 중복 저자와 다중 소속을 정규화하고, 성씨를 라틴 문자 표기법에 맞춰 표준화하였다. 첫 번째 방법은 각 성씨에 대해 국가별 출현 빈도를 확률분포 p(c|s)로 정의하고, 전체 데이터셋에서 관측된 국가 분포 q(c)를 기준으로 KL 발산 D_KL(p‖q)를 계산한다. D_KL 값이 최소인 국가를 해당 성씨의 ‘주된 기원’으로 지정한다. 이 접근법은 빈도 차이가 큰 경우에도 상대적 정보 손실을 최소화한다는 장점이 있다. 두 번째 방법은 동일한 p(c|s)를 기반으로 Gini 계수 G(s)=1−∑_c p(c|s)^2 를 구한다. Gini 값이 0에 가까울수록 특정 국가에 집중된 분포를 의미하므로, 높은 집중도를 보이는 경우 해당 국가를 할당한다. 두 방법 모두 ‘다중 기원’ 성씨에 대해 확률적 다중 할당을 허용하도록 설계되었으며, 임계값 조정을 통해 민감도와 특이도를 조절한다. 검증을 위해 실제 출신 국가가 공개된 연구자 5,000명을 표본으로 삼아 정확도, 정밀도, 재현율을 측정했으며, KL 기반 방법은 평균 정확도 78 %, Gini 기반 방법은 73 %를 기록했다. 오류 원인으로는 저자 소속기관의 국제 이동, 공동 저자 다국적 협업, 그리고 성씨의 다중 어원(예: ‘Lee’는 영국·중국·한국 등) 등이 지목되었다. 또한, 데이터베이스에 존재하는 언어·문화적 편향(서구권 저널 중심)도 결과에 영향을 미쳤다. 연구자는 이러한 한계를 보완하기 위해 다국어 성씨 사전 구축, 시간 가중치 적용, 그리고 인구통계학적 메타데이터와의 통합을 제안한다. 전반적으로 두 방법은 서로 보완적인 특성을 가지고 있어, 복합적인 지리적 추적 모델에 통합될 가능성이 높다.

초록

상세 요약

📜 논문 원문 (영문)