단어 빈도 통계의 스케일링 법칙과 변동성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 텍스트 코퍼스를 대상으로 단어 어휘 크기의 평균 성장(Heaps 법칙)과 그 변동성(Fluctuation Scaling)을 동시에 분석한다. Zipf 법칙에 따른 단어 빈도 분포와 문서별 주제 변동을 포아송 과정에 결합한 모델을 제시해, 평균 어휘 크기가 서브선형으로 감소하고 변동성은 평균과 선형적으로 비례함을 설명한다. 실증 검증은 Google‑ngram, 영어 위키피디아, 그리고 과학 논문 데이터베이스에서 수행되었다.

상세 분석

이 연구는 언어 데이터에서 관찰되는 세 가지 스케일링 법칙—Zipf 법칙(F_r ∝ r^−α), Heaps 법칙(N(M) ∝ M^λ), 그리고 변동성 스케일링(σ(M) ∝ μ(M)^β)—을 통합적으로 설명하려는 시도이다. 기존의 포아송 무작위 모델은 각 단어 r가 고정된 평균 발생률 F_r를 갖는 독립적인 포아송 프로세스로 가정한다. 이 가정 하에서 평균 어휘 크기 μ(M)=∑_r

단어 빈도 통계의 스케일링 법칙과 변동성

초록

상세 분석

댓글 및 학술 토론

의견 남기기