언어는 팽창할수록 차가워진다
초록
본 연구는 200년 동안 7개 언어에 걸쳐 1,500만 단어 이상을 포함한 방대한 도서 데이터베이스를 분석한다. 흔히 알려진 Zipf 법칙이 고빈도 단어에만 적용되고, 전체 어휘는 두 개의 스케일링 구간을 보인다. 또한 코퍼스 크기와 어휘 규모 사이에 전형적인 Heaps 법칙이 아닌 감소하는 한계 효용을 보이는 전신(allometric) 관계가 존재한다. 코퍼스가 커질수록 신조어 등장률과 연간 사용 변동성이 감소하는 ‘냉각(cooling)’ 현상이 관측되며, 이는 언어 진화가 규모 확대에 따라 속도가 느려지는 동적 규칙임을 시사한다.
상세 분석
이 논문은 구글 북스 Ngram 데이터베이스에서 추출한 1800년부터 2008년까지의 7개 주요 언어(영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 러시아어, 중국어)의 텍스트를 이용해 어휘 통계의 보편성을 검증한다. 먼저 단어 빈도 분포를 로그-로그 플롯으로 나타내면, 빈도가 높은 상위 10⁴~10⁵개의 단어는 전통적인 Zipf 법칙 f ∝ r⁻¹을 따르지만, 중·저빈도 영역에서는 지수 지수가 ≈ 1.5 ~ 2.0인 다른 스케일링 구간이 나타난다. 이는 단어 간 의미·문법적 상관관계가 낮은 고빈도 단어와, 주제·시대적 변동에 민감한 저빈도 단어가 서로 다른 생성 메커니즘을 가짐을 의미한다.
다음으로 Heaps 법칙 V(N) ∝ N^β (V: 어휘 규모, N: 토큰 수)를 확장한 전신(allometric) 관계를 검증한다. 저자들은 β가 0.5 ~ 0.7 사이에서 언어마다 다소 차이를 보이지만, 전체적으로 β < 1임을 확인한다. 이는 코퍼스가 커질수록 새로운 단어가 추가되는 비율이 점점 감소한다는 ‘한계 효용 감소’ 현상을 의미한다. 특히, 10⁸ 토큰을 초과하는 대규모 코퍼스에서는 β가 0.55 이하로 수렴하는 경향을 보여, 어휘 성장의 포화 현상이 나타남을 시사한다.
가장 혁신적인 발견은 어휘 성장의 동적 변동성 측정이다. 연도별 단어 사용량 변화 Δf/f를 표준편차 σ(N)으로 정의했을 때, σ는 코퍼스 규모 N에 대해 σ ∝ N^(-α) (α ≈ 0.1 ~ 0.2) 관계를 보인다. 즉, 코퍼스가 커질수록 전체 언어 시스템의 ‘온도’가 낮아져, 신조어 도입과 기존 단어 사용 변동이 억제된다. 이를 ‘언어 냉각 패턴’이라 명명하고, Zipf와 Heaps와 달리 시간에 따라 변하는 동적 규칙으로 제시한다.
이러한 결과는 언어가 단순히 단어의 집합이 아니라, 복잡계 네트워크로서 규모 확장에 따라 구조적 안정성을 획득한다는 이론적 함의를 제공한다. 또한, 언어 모델링 및 자연어 처리에서 데이터 규모와 어휘 관리 전략을 설계할 때, 한계 효용 감소와 변동성 억제 효과를 고려해야 함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기