언어 트리와 압축에 대한 비판적 고찰

본 논문은 Benedetto 등이 제안한 압축 기반 언어 거리 측정 방법을 비판한다. 저자는 인코딩 과정에 내재된 사전 정보와 모델‑문자열 매핑의 의미론적 차이를 강조하며, 압축 거리가 실제 언어 계통을 반영하기 어렵고 단순히 텍스트 유사도만을 측정한다고 주장한다. 또한 알파벳 선택 편향과 DNA‑압축 사례를 들어 방법론적 한계를 지적한다.

저자: Xiuli Wang

본 논문은 2002년과 2003년에 발표된 Benedetto 등의 “Language Trees and Zipping” 논문에 대한 비판적 논평이다. 저자는 먼저 인코딩 과정이 의미론적 정보를 포함하는 사전 정보를 가지고 있다고 주장한다. 여기서 인코딩은 우주 혹은 객체를 문자열 혹은 숫자열로 변환하는 매핑이며, 이 매핑이 모델‑이론적 의미(denotation)를 보존할 때만 문자열 간 거리(metric)가 원래 모델 간 거리와 일치한다는 전제를 제시한다. 그 다음, Benedetto 등이 제안한 압축 기반 거리(NCD, Normalized Compression Distance)가 이러한 전제조건을 만족하지 못한다는 점을 지적한다. 압축 알고리즘은 입력 문자열을 그대로 읽어 통계적 패턴을 탐지할 뿐이며, 서로 다른 알파벳을 사용하는 언어를 직접 비교하려면 먼저 음성학적 전사 혹은 통일된 기호 체계로 변환해야 한다. 실제 실험에서 러시아어를 포함했을 때 Slavic 그룹 내에서 군집이 깨지는 현상이 관찰되었는데, 이는 알파벳 차이에 의한 편향을 보여준다. 저자는 “알파벳 자체가 사전 정보”이며, 이를 무시하고 압축 거리만을 사용하면 잘못된 군집 결과가 도출된다고 주장한다. 논문은 문자열‑모델 매핑의 의미를 보다 명확히 설명하기 위해 군 이론의 동형사상과 정수‑이진코드 변환을 예시로 든다. 무작위 매핑에서는 원래 구조를 복원할 수 없으며, 재귀적이거나 계산 가능한 매핑이라 하더라도 매핑 자체가 사전 정보를 포함한다는 점을 강조한다. 따라서 압축 거리로부터 언어의 계통적 관계, 즉 조상‑후손 관계를 추론하는 것은 근본적으로 부적절하다. 압축 거리는 단지 텍스트 표면적 유사도, 즉 문자열 간 공통 패턴의 양을 측정할 뿐이다. DNA 서열에 압축을 적용한 사례도 동일한 논리로 비판한다. DNA 서열을 생물학적 특징의 매핑으로 간주하지 않으면, 압축 거리로부터 진화적 관계를 도출하는 것은 근거가 부족하다. 저자는 “언어 트리”라는 용어가 실제 역사언어학에서 의미하는 가족 트리와는 다르게, 단순히 유사성을 시각화한 그래프에 불과하다고 주장한다. 언어학자들은 철자, 음성, 구문, 의미 등을 종합적으로 고려해 계통을 재구성하지만, 압축 기반 방법은 이러한 다차원 정보를 반영하지 못한다. 마지막으로, 모델‑문자열 매핑이 사전 정보를 내포한다는 점을 인식하고, 이를 명시적으로 고려하지 않을 경우 잘못된 결론에 도달할 위험이 있음을 경고한다. 이는 물리학에서 실험과 이론 사이의 매핑을 검증하는 과정과 유사하며, 압축 기반 거리 측정도 동일한 검증 절차가 필요함을 시사한다. 저자는 이러한 논의를 통해 압축 기반 언어 거리 측정이 현재 형태로는 언어 계통학적 연구에 제한적이며, 보다 정교한 매핑과 사전 정보의 명시적 고려가 필요하다고 결론짓는다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기