한국 성씨 분포와 ‘만년 김’ 현상의 통계학적 해석
초록
본 논문은 조선시대부터 현재까지 이어진 한국 가계부 데이터를 활용해, 성씨 빈도 분포가 무작위 집단 형성(RGF) 모델로 잘 설명된다는 것을 보인다. 특히 결혼으로 가계부에 들어오는 여성들의 경우, 가장 흔한 성씨인 ‘김’의 등장 횟수가 전체 여성 수와 일정 비율을 유지한다는 예측이 실증적으로 확인되었다. 모델을 연역하면 500 AD까지 인구를 추정할 수 있으며, 약 1만 명 정도의 김씨가 존재했을 것으로 추정한다.
상세 분석
이 연구는 한국 전통 가계부라는 독특한 사료를 정량적 데이터베이스로 전환한 점에서 큰 의의를 가진다. 가계부에 기록된 결혼 여성 16,5020명을 30년 단위 16개의 시계열 구간으로 나누어, 각 구간의 총 여성 수(M), 고유 성씨 수(N), 그리고 가장 빈번한 성씨 ‘김’의 등장 횟수(k_max)를 추출하였다. 저자들은 이러한 통계량이 전체 인구의 무작위 표본과 동등한 분포를 가진다고 가정하고, 이를 검증하기 위해 ‘무작위 그룹 형성(Random Group Formation, RGF)’ 모델을 적용하였다. RGF 모델은 그룹(성씨) 크기 분포 P_M(k)=A exp(−bk) k^γ 형태의 최대 엔트로피 해를 제시하며, M, N, k_max이라는 세 가지 실측값만으로 파라미터(A, b, γ)를 결정한다.
핵심 검증은 두 가지이다. 첫째, M을 변동시켜(예: 전체 1,650,200명 중 임의로 M<M_total을 선택) N(M) 관계를 재구성했을 때, 실제 역사적 데이터와 거의 일치하는 곡선을 얻었다는 점이다. 이는 성씨 다양성(N)이 전체 인구 규모(M)에만 의존하고, 시간에 따른 별도 변동이 없다는 ‘메타‑북’ 가설을 뒷받침한다. 둘째, 가장 큰 그룹(k_max)의 크기가 데이터셋 크기와 선형적으로 비례한다는 RGF 모델의 예측이, ‘김’ 성씨 비율이 1500년대부터 1990년대까지 거의 일정(≈0.06)함을 통해 실증되었다. 즉, 전쟁·기근·산업화 등 사회 변동에도 불구하고 김씨 비율은 변하지 않았으며, 이는 모델이 내포한 ‘최적 혼합(maximal mixing)’ 조건이 실제 한국 사회에 적용된다는 강력한 증거가 된다.
또한 저자들은 500 AD까지 인구를 역추정하기 위해, 189개의 성씨가 도입된 연대별 누적 데이터를 이용해 N_f(t)와 M(t) 사이의 함수 관계를 역으로 적용하였다. 결과적으로 약 10,000명의 김씨가 존재했을 것으로 추정했으며, 이는 ‘만년 김’이라는 표현과 일맥상통한다.
비판적 시각에서 보면, 가계부가 기록한 여성만을 대상으로 했기 때문에 남성 인구와의 비대칭성이 존재한다. 또한 가계부 자체가 특정 사회계층(양반·지주 등) 중심으로 보존된 경우가 많아, 전체 인구의 무작위 표본이라는 가정이 완전히 성립하는지는 논란의 여지가 있다. 모델 파라미터 γ와 b가 시간에 따라 미세하게 변한다는 점을 감안하면, ‘시간 불변’이라는 결론은 근사적 해석으로 보는 것이 타당하다. 그럼에도 불구하고, RGF 모델이 복잡한 역사적 변동을 단일 함수 N(M)로 압축할 수 있다는 점은 통계물리학적 접근이 사회과학 데이터에 적용될 수 있음을 보여주는 좋은 사례이다.
댓글 및 학술 토론
Loading comments...
의견 남기기