오라클 문자 빈도와 Zipf 법칙의 새로운 해석
본 논문은 갑골문자(오라클)의 문자·단어 빈도 데이터를 Zipf‑Mandelbrot 3‑파라미터 모델에 맞추어 분석하고, 파라미터 α≈1, a≈1을 도출한다. 이를 통해 기존 연구자들이 주장한 “양끝 집중 현상”은 통계적 근거가 부족한 인상에 불과함을 지적한다.
저자: Xiuli Wang
이 논문은 중국 고대 갑골문자(오라클)의 문자·단어 빈도 분포가 Zipf‑Mandelbrot 3‑파라미터 모델에 부합한다는 주장을 전개한다. 서론에서는 Zipf 법칙이 인간 언어 전반에 걸쳐 관찰된 경험법칙이며, 다양한 변형(예: f = c r^α, f = c (r + a)^α)이 존재함을 소개한다. 특히 α와 a라는 두 개의 추가 파라미터를 도입한 Zipf‑Mandelbrot 형태를 선택한 이유는 “least effort” 원칙을 수학적으로 일반화하기 위함이라고 설명한다.
문헌 검토에서는 Zipf의 원래 논문과 최근의 게임이론 기반 최소 노력 모델을 인용하며, 고대 중국어가 단음절 구조이므로 문자 하나가 거의 하나의 단어에 해당한다는 점을 강조한다. 이를 통해 문자 빈도를 직접 단어 빈도로 대체할 수 있다고 주장한다.
연구 방법 부분에서는 “중국 동북대학 문자연구센터”가 제공한 갑골문자 빈도 데이터를 사용했다고만 언급하고, 구체적인 코퍼스 규모(문자 수, 문서 수)와 전처리 절차는 생략한다. 저자는 이 데이터를 Zipf‑Mandelbrot 식 f_i = c (a + r)^α에 맞추어 비선형 회귀 혹은 최소제곱 방법으로 파라미터를 추정했으며, 결과적으로 α≈1, a≈1이라는 값을 얻었다. 이때 c는 정규화 상수로, 실제 값은 제시되지 않는다.
결과 해석에서는 α≈1이 Zipf 법칙과 거의 동일한 스케일링을 의미하고, a≈1은 “두 끝에 집중(assembling on the two ends)” 현상이 통계적으로 의미가 없으며, 단지 연구자들의 주관적 인상에 불과하다고 주장한다. 또한, ‘시경(史記)’이라는 고대 한문 텍스트와 비교하여, 시경에서도 Zipf 법칙이 성립함을 확인했지만, 갑골문자와는 파라미터 값이 다르므로 언어적 특성이 다름을 강조한다.
논문의 부록에는 몇 장의 그림(예: 계층 구조, 예시 1·2·3)이 포함되어 있으나, 실제 그래프나 데이터 표는 누락되어 있다. 참고문헌으로는 Zipf(1949)와 Ferrer i Cancho & Solé(2003) 등 두 편만 인용한다.
전체적으로 논문은 갑골문자 빈도와 Zipf‑Mandelbrot 모델의 적합성을 제시하려 하지만, 데이터 설명 부족, 파라미터 추정 방법 미제시, 적합도 검정 부재 등으로 과학적 신뢰도가 낮다. 향후 연구에서는 원시 데이터 공개, 표본 추출 방법 명시, 다양한 통계 모델과의 비교, 그리고 파라미터의 통계적 유의성 검증이 필수적이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기