레벤슈타인 거리로 본 인도‑유럽어계통
초록
본 논문은 레벤슈타인 거리와 스와시어 리스트를 이용해 인도‑유럽어 50개 언어 간의 유전적 거리를 정량화하고, 이를 바탕으로 언어계통수를 재구성한다. 기존의 인위적 인식에 의존하던 동족어 판단을 최소화하여 재현성을 높였으며, 기존 연구와 유사한 전반적 구조를 보이면서도 몇몇 분기에서 차이를 제시한다.
상세 분석
이 연구는 언어 진화와 단일배우 유기체의 진화를 유사시켜, 언어 간 거리를 ‘유전적 거리’ 개념으로 정의한다는 점에서 혁신적이다. 핵심은 동일 의미를 가진 단어 쌍 사이의 레벤슈타인 거리(삽입·삭제·대치 연산 최소 횟수)를 정규화하여 0~1 사이의 값으로 변환한 뒤, 스와시어 리스트에 포함된 200개 어휘 전부에 대해 평균을 구하는 것이다. 정규화는 단어 길이에 따라 거리값을 보정함으로써, 짧은 단어가 긴 단어에 비해 과도하게 큰 영향을 미치는 것을 방지한다.
전통적인 글로토크로놀로지는 ‘동족어’ 비율을 기반으로 거리를 산출한다. 동족어 판별은 전문가의 주관적 판단에 크게 의존하며, 동일 어휘라도 의미 변화나 차용 등 복합적인 요인으로 인해 일관된 판단이 어려운 단점이 있다. 반면 레벤슈타인 기반 방법은 순수히 형태학적 차이에만 의존하므로, 데이터 수집과 처리 과정이 자동화될 수 있다. 이는 대규모 언어 집단에 대한 비교를 가능하게 하며, 재현성을 크게 향상시킨다.
데이터셋은 50개의 인도‑유럽어와 각 언어당 200개의 스와시어 어휘로 구성되었다. 모든 언어 쌍에 대해 200×200개의 단어 거리 행렬을 계산하고, 각 언어 쌍에 대한 평균 거리를 구한다. 이렇게 얻은 거리 행렬을 UPGMA(계층적 군집) 알고리즘에 입력해 계통수를 생성한다. 결과적으로, 기존 글로토크로놀로지 연구(GA, GJ)와 전반적으로 일치하는 대형 분기(예: 인도‑유럽어 → 게르만어, 슬라브어 등)를 재현했으며, 몇몇 소분기에서는 차이를 보였다. 특히, 알바니아어와 라틴어 계통 사이의 위치가 기존 연구와 달리 중간 정도의 거리를 갖는 등, 형태학적 거리 측정이 새로운 통찰을 제공한다는 점을 강조한다.
한계점으로는 레벤슈타인 거리가 어휘의 의미적 변화를 반영하지 못한다는 점이다. 예를 들어, 의미 전이 없이 형태만 변한 경우와 의미가 크게 변했지만 형태는 유지된 경우를 동일하게 평가한다. 또한, 스와시어 리스트 자체가 제한된 어휘 집합이므로, 언어 전반의 변이를 충분히 포착하지 못할 가능성이 있다. 향후 연구에서는 의미론적 유사성을 고려한 가중 레벤슈타인 거리나, 더 풍부한 어휘 데이터베이스를 활용한 다중 거리 통합 방식을 탐색할 필요가 있다.
전반적으로, 이 논문은 언어계통학에 자동화된 정량적 방법을 도입함으로써, 주관적 판단을 최소화하고 재현 가능한 결과를 도출한다는 점에서 학문적 기여가 크다. 특히, 인도‑유럽어계통에 대한 새로운 분기 해석은 향후 비교언어학 및 인류학적 연구에 중요한 참고자료가 될 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기