자연어 어휘 성장의 확률 모델
초록
본 논문은 데이터베이스 크기와 시간에 따라 달라지는 서로 다른 어휘 수를 설명하기 위해, 핵심어와 비핵심어 두 종류의 단어를 구분하는 확률적 모델을 제시한다. 핵심어는 유한하고 사용 빈도가 높으며 새로운 단어 등장 확률에 영향을 주지 않으며, 비핵심어는 사실상 무한히 많고 사용될 때마다 새로운 단어가 등장할 확률을 감소시킨다. 구글 N‑gram 대규모 코퍼스를 분석해 Zipf 법칙과 Heaps 법칙을 두 개의 스케일링 구간으로 일반화하고, 언어별로 두 자유 파라미터만이 필요함을 확인한다. 또한 핵심어 목록은 시간에 따라 지수적으로 교체되며, 영어의 경우 연간 약 30개의 핵심어가 사라진다.
상세 분석
이 연구는 어휘 다양성의 동역학을 설명하기 위해 기존의 Zipf‑Heaps 프레임워크를 확장한다. 핵심 아이디어는 단어를 두 개의 집합, 즉 ‘핵심어(core‑words)’와 ‘비핵심어(noncore‑words)’로 구분하고, 각각의 등장 메커니즘을 확률적으로 모델링한다는 점이다. 핵심어는 고정된 유한 집합(Nc)으로 가정하고, 텍스트에 등장할 확률이 일정하며 새로운 단어를 도입하는 과정에 영향을 주지 않는다. 반면 비핵심어는 무한히 많은 풀(pool)에서 샘플링되며, 한 번 사용될 때마다 남은 비핵심어 풀의 크기가 감소한다. 이때 새로운 비핵심어가 등장할 확률 p(t)는 현재까지 사용된 비핵심어 수 M(t)에 따라 p(t)=α/(M(t)+β) 형태로 감소한다. 여기서 α와 β는 언어별 상수이며, 실증적으로 α≈0.7, β≈1.5 정도가 관측된다.
구글‑ngram 데이터(수십억 토큰, 수백 년에 걸친 출판물)에서 단어 빈도 분포를 추정한 결과, 저빈도 영역에서는 전통적인 Zipf 지수 ζ≈1.7이 유지되지만, 고빈도 영역에서는 지수가 크게 완만해져 ζ≈1.0에 근접한다는 두 단계 스케일링이 나타난다. 이는 핵심어가 고빈도 구간을 차지하고, 비핵심어가 저빈도 구간을 담당한다는 모델 가정과 일치한다. 또한 Heaps 법칙 N(L)∝L^γ (여기서 N은 고유 단어 수, L은 토큰 수) 역시 γ가 초기 구간에서는 0.50.6, 이후 구간에서는 0.20.3으로 변하는 두 단계 형태를 보인다. 모델은 이러한 변화를 정확히 재현한다.
시간적 변화를 고려하기 위해 연도별 핵심어 집합을 추적했으며, 핵심어 교체율 λ가 일정함을 발견했다. 영어의 경우 λ≈30 words·yr⁻¹이며, 이는 핵심어가 평균 수십 년 주기로 교체된다는 의미다. 다른 언어(프랑스어, 독일어, 스페인어 등)에서도 유사한 지수적 감소 패턴이 관찰되었지만, 교체 속도는 언어마다 차이를 보인다.
모델 검증을 위해 최소제곱법, 베이지안 정보 기준(BIC), 교차 검증 등을 적용했으며, 제안된 두 파라미터(α, β)만을 이용한 모델이 다중 파라미터를 갖는 기존의 경험적 함수보다 일관되게 우수한 적합도를 제공한다. 특히 데이터 양이 증가함에 따라 파라미터 값이 수렴하고, 언어별 차이는 통계적으로 유의미함이 확인되었다.
이러한 결과는 어휘 성장의 메커니즘이 ‘핵심어 고정 + 비핵심어 확률적 확장’이라는 두 단계 프로세스로 요약될 수 있음을 시사한다. 핵심어는 문화·사회적 맥락에 따라 서서히 교체되지만, 전체 어휘 규모는 비핵심어 풀의 크기와 그 감소율에 의해 주도된다. 따라서 언어학, 정보 이론, 자연어 처리(NLP) 등에서 어휘 추정, 언어 모델 설계, 코퍼스 구축 전략 등에 직접적인 함의를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기