디지털 가계도 활용 인구통계 정량 분석
초록
위키트리에서 수집한 6.7백만 명의 전 세계 가계도 데이터를 머신러닝과 통계 기법으로 분석해 이름 트렌드, 출산·혼인·수명 등 인구학적 현상을 정량적으로 검증하였다. 데이터 품질을 인구조사와 비교해 검증하고, 헬린 법칙, 성비 변동, 배우자·쌍둥이 수명 상관관계 등 기존 가설을 대규모 실증으로 재조명한다.
상세 분석
본 논문은 위키트리(WikiTree)라는 크라우드소싱 기반 가계도 플랫폼에서 제공하는 6.67 백만 명, 160개국 이상에 걸친 인구 데이터를 활용한다. 데이터는 개인의 출생·사망 연도·장소, 성별, 결혼 연도·장소 등 기본 인구통계 정보를 포함하며, 관계는 배우자·자녀·부모·형제 등 네 가지 유형으로 코딩된다. 이상치(예: 사망 연령 122세 초과)는 결측값으로 처리하고, 데이터 정합성은 위키트리 내부 검증 절차와 외부 인구조사(영국 ONS, 미국 센서스 등)와의 수명 분포 비교를 통해 보강하였다.
분석 방법은 크게 기술통계와 가설 검증으로 나뉜다. 이름 트렌드 분석에서는 연도별 출생 인구 대비 특정 이름 비율을 계산해 ‘Wendy’와 같은 문화적 사건과의 상관성을 시각화하였다. 고유 이름 다양성(연도당 10회 이상 등장한 이름 수) 지표를 통해 중세와 빅토리아 시대의 낮은 다양성을 확인하고, 부모‑자녀 동명 비율을 남·녀별로 추정해 남성 중심의 명명 문화가 16세기 최고조에 달했음을 제시한다.
출산 연령 분석에서는 여성의 첫·마지막 출산 연령 평균을 10년 단위로 구해, 산업화 이후 출산 연령이 지속적으로 상승함을 보여준다. 헬린 법칙 검증에서는 1800~1900년 사이 963 416건의 출생 기록 중 쌍둥이 비율 0.0106%, 삼쌍둥이 비율 0.00013%를 도출해 기존 문헌과 일치함을 확인하고, 쌍둥이 성비가 거의 균등함을 보고한다.
성비 추세는 16501950년 사이 여성 비율이 서서히 상승하는 패턴을 보이며, 이는 기록 편향(남성 기록 우위)과 자연적 성비 변동을 동시에 고려해야 함을 시사한다. 혼인 연령 분석에서는 남성이 여성보다 평균 23년 늦게 결혼하고, 전반적인 결혼 연령이 시간에 따라 상승하는 현상을 확인한다.
수명 상관관계에서는 배우자 간 사망 연령 상관계수 r = 0.224, 쌍둥이 간 r = 0.22로, 배우자·쌍둥이 간 유전·환경 요인의 영향을 정량적으로 입증한다.
한계점으로는 데이터가 자발적 기여에 의존해 인구학적 편향(서구 중심, 특정 연령·계층 과대표현)과 누락된 변수(사회경제적 지위, 교육 수준 등)가 존재한다는 점을 인정한다. 또한, 관계 추론이 단순히 4가지 유형에 국한돼 복합 가계 구조를 완전히 포착하지 못한다. 향후 연구에서는 다중 출처(역사 기록, DNA 데이터)와 그래프 신경망을 결합해 이민 흐름, 질병 전파, 유전 질환 탐지를 고도화할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기