언어계통과 인구분포를 재현하는 단순 분기 모델
초록
본 논문은 언어 변화가 인구 규모와 무관하게 일어난다는 최신 연구 결과를 바탕으로, 언어를 제한된 수의 특징으로 구분하고 이들 특징 사이의 거리를 정의하는 단순 확률적 분기 모델을 제시한다. 시뮬레이션을 통해 언어 가족 규모의 파워‑법칙 분포와 개별 언어 사용 인구의 로그정규 분포를 실제 데이터와 일치시켰으며, 복잡한 사회·역사적 요인을 최소화한 모델링이 언어 진화의 통계적 패턴을 설명할 수 있음을 보여준다.
상세 분석
이 연구는 언어 진화의 통계적 특성을 설명하기 위해 ‘분기(branching)’와 ‘돌연변이(mutation)’라는 두 가지 기본 메커니즘을 도입한 확률 모델을 설계하였다. 모델의 핵심 가정은 언어 변화율이 해당 언어 사용 인구 규모와 독립적이라는 점이다. 이는 최근 언어학·인류학 연구에서 제시된 ‘인구 규모와 언어 변화 속도는 상관관계가 약하다’는 실증적 증거와 일치한다. 모델은 각 언어를 고정된 차원의 특징 벡터(예: 20개의 이진 특성)로 표현한다. 두 언어 사이의 거리(d)는 이진 해밍 거리로 정의되며, 이는 전통적인 스와데시(Swadesh) 어휘 거리와 유사한 개념이다.
시뮬레이션 초기에는 하나의 원시 언어가 존재하고, 매 시간 단계마다 일정 확률(p_branch)로 새로운 언어가 기존 언어에서 분기한다. 분기 시에는 특징 벡터가 하나의 무작위 비트에 의해 변형되며, 이는 ‘돌연변이’로 해석된다. 동시에, 각 언어는 인구 성장 모델(예: 로그정규 성장)을 따라 사용 인구가 변한다. 중요한 점은 분기와 돌연변이 확률이 인구 규모와 무관하게 고정된다는 것이다.
시뮬레이션 결과는 두 가지 주요 통계적 현상을 재현한다. 첫째, 언어 가족 규모(한 가족에 속한 언어 수)의 분포는 파워‑법칙 형태를 띠며, 실측 데이터(예: Ethnologue)와 지수값이 거의 일치한다. 둘째, 개별 언어의 사용 인구 분포는 로그정규 형태를 보이며, 이는 실제 세계 언어 인구 분포와 동일한 꼬리 특성을 가진다. 이러한 일치는 모델이 복잡한 사회·문화 요인을 명시적으로 포함하지 않음에도 불구하고, 언어 진화의 근본적인 확률적 메커니즘을 포착하고 있음을 시사한다.
또한, 모델은 특징 벡터의 차원 수와 돌연변이 확률을 조절함으로써 다양한 시나리오를 탐색할 수 있다. 차원 수가 충분히 작을 경우(예: 510) 언어 간 거리의 분포가 급격히 이산화되어 실제 관측치와 차이가 발생하지만, 1530 정도의 중간 차원에서는 거리 분포가 연속적이며 실측과 높은 상관성을 보인다. 이는 언어를 구분하는 특징이 ‘무한히 많다’는 가정보다 ‘유한하고 제한된’ 특성 집합이 더 현실적이라는 기존 언어학적 논거와 일맥상통한다.
모델의 한계도 명시된다. 첫째, 지리적·사회적 네트워크 효과를 무시하고 전역적인 무작위 분기를 가정한다는 점이다. 둘째, 특징 벡터를 이진화함으로써 실제 언어의 복합적·다중값적 특성을 단순화한다는 점이다. 그럼에도 불구하고, 이러한 제약에도 불구하고 모델이 보여준 통계적 일치는 언어 진화 연구에서 ‘미시적 복잡성보다 거시적 확률법칙’이 지배적일 가능성을 강하게 뒷받침한다.
댓글 및 학술 토론
Loading comments...
의견 남기기