인도유럽어 어원연대 추정의 새로운 확률모델
본 논문은 니콜스와 그레이(2008)의 확률적 돌로 모델에 결측 데이터를 무작위 결측(MAR) 가정으로 통합하고, 재난(카타스트로피) 과정을 도입해 시간·공간적 변이율을 모델링한다. 베이지안 MCMC 추정으로 24개 언어 전체를 분석해 원시인도유럽어(PIE)의 연대를 8400년 전(95% HPD 7100‑9800년)으로 제시한다.
저자: ** Robin J. Ryder, Geoffrey K. Nicholls **
논문은 먼저 기존의 니콜스·그레이(2008)와 알렉세이엔코 등(2008) 모델을 리뷰한다. 이들 모델은 이진 특성(동족어 클래스)의 출현·소멸을 독립적인 포아송 과정으로 기술했으며, 베이지안 MCMC를 통해 언어 트리와 분기 시점을 추정했다. 그러나 결측 데이터가 존재할 경우, 기존 연구는 해당 언어를 제외하거나 결측을 ‘부재’로 처리해 왔다. 저자들은 이러한 접근법이 특히 히타이트와 같이 결측 비율이 높은 언어에 대해 편향을 초래한다는 점을 지적한다.
이를 해결하기 위해 결측을 무작위 결측(MAR)으로 가정하고, 각 열(동족어 클래스)마다 가능한 0·1 상태 집합 Ωₐ를 정의한다. 결측이 있는 행렬을 전체 가능한 행렬들의 집합으로 보고, 베이지안 프레임워크 내에서 결측을 적분함으로써 모든 언어를 분석에 포함시킨다.
다음으로 시간·공간적 변이율 이질성을 반영하기 위해 ‘재난(카타스트로피)’ 과정을 도입한다. 재난은 일정 확률 κ로 기존 동족어를 소멸시키고 평균 ν개의 새로운 동족어를 동시에 생성한다. 모델의 가역성을 유지하기 위해 ν=κλ/μ 라는 제약을 두고, 재난이 발생한 경우 효과적으로 시간축을 연장하는 등가 변환 T_C(κ,μ)=−log(1−κ)/μ 를 도출한다. 이로써 우도는 재난 수 k_i만을 파라미터로 하는 간단한 형태가 된다.
베이지안 사전은 다음과 같다. 트리 토폴로지는 균등 사전, 루트 연령은
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기