역사 언어학에서 계통 추론을 위한 정량적 방법 남중부 드라비다어 사례 연구

초록

본 논문은 유전학에서 널리 사용되는 거리법과 이산 특성법을 남중부 드라비다어 6개 언어에 적용해 전통적인 비교법으로 만든 계통수와 비교한다. 실험 결과 두 방법이 대부분 일치했으며, 차이는 실제 언어학적 모호성을 반영한다는 결론을 제시한다.

상세 분석

이 연구는 언어 계통학에 정량적 알고리즘을 도입한 초기 시도 중 하나로, 두 가지 주요 방법론—거리 기반 방법(Distance Methods)과 이산 특성 기반 방법(Discrete Character Methods, Felsenstein 2003)—을 선택했다. 거리법은 각 언어 쌍 사이의 공유 인도어(공통 어휘) 수를 기반으로 거리 행렬을 구축하고, UPGMA 혹은 Neighbor‑Joining 같은 클러스터링 기법으로 트리를 생성한다. 반면 이산 특성법은 각 인도어를 ‘변경(변형)’, ‘불변(보존)’ 등 이산 상태로 코딩하고, 최대우도(Maximum Likelihood) 모델을 적용해 트리 구조와 변이율을 동시에 추정한다.

데이터는 Krishnamurti et al. (1983)에서 제시한 6개 남중부 드라비다어(예: 코다, 마라, 바루어 등)의 인도어 목록을 사용했으며, 각 인도어는 ‘변경’, ‘불변’, ‘불일치’ 세 가지 상태로 분류되었다. 거리법에서는 변형된 인도어와 보존된 인도어를 각각 가중치 1로 취급해 총 거리값을 계산했으며, 이산 특성법에서는 변형 확률과 보존 확률을 별도 파라미터화해 모델을 최적화했다.

실험 결과, 두 방법이 도출한 계통수는 전통적인 비교법이 제시한 트리와 전반적으로 높은 일치도를 보였다. 특히, 코다와 마라가 가장 가까운 친척이라는 점, 바루어가 이들에 비해 약간 외부에 위치한다는 점 등이 동일하게 재현되었다. 차이가 나타난 부분은 주로 ‘가벼운 변형’이 많은 언어쌍에서 발생했으며, 이는 인도어 선택의 주관성이나 데이터 수집 과정에서의 불확실성을 반영한다. 연구진은 이러한 차이를 ‘진정한 모호성(ambiguity)’으로 규정하고, 숙련된 언어학자조차도 동일한 결론에 도달하기 어려운 상황임을 강조한다.

또한, 트리 평가에 사용된 기준은 ‘정확도(accuracy)’와 ‘일관성(consistency)’을 정량화한 지표이며, 두 알고리즘 모두 85 % 이상의 정확도를 기록했다. 이는 언어 변천 과정이 유전적 변이와 유사한 통계적 패턴을 보일 수 있음을 실증적으로 뒷받침한다. 마지막으로, 저자들은 정량적 방법이 비교법을 대체하기보다는 보완적 도구로서, 특히 대규모 언어 데이터베이스 구축 시 초기 가설 설정에 유용할 것이라고 제언한다.