책의 크기에 따른 단어 빈도와 이동 불변성
초록
이 논문은 실제 소설의 단어 빈도 분포가 단어를 무작위로 배치한 ‘랜덤 북’ 모델과 매우 유사한 특성을 보이며, 텍스트를 절반으로 나누어도 통계적 특성이 변하지 않는 ‘이동 불변성’이 존재함을 보여준다. 또한 텍스트 길이에 따라 빈도 분포의 꼬리 지수가 변한다는 점을 밝혀, 전통적인 성장 기반 시뮬레이션인 사이먼 모델이 실제 소설을 설명하지 못함을 지적한다. 마지막으로 저자는 이러한 현상을 정량화하는 ‘랜덤 북 변환(RBT)’을 제시하고, 이를 통해 보다 정확한 빈도 분포 형태를 추정한다.
상세 분석
본 연구는 단어 빈도 함수 (W_D(k)) — 텍스트 내에서 정확히 (k) 번 등장하는 서로 다른 단어의 수—를 중심으로 소설 텍스트의 통계적 구조를 분석한다. 저자들은 먼저 ‘랜덤 북(null model)’을 정의한다. 이는 전체 텍스트에 존재하는 각 단어를 원래의 전체 빈도 (P(k)) 를 유지하면서 무작위로 재배치한 가상의 책이다. 이 모델은 두 가지 핵심 특성을 가진다. 첫째, 텍스트를 임의의 구간으로 나누어도 각 구간의 (W_D(w_T)) (구간 내 고유 단어 수)와 (P_{w_T}(k)) (구간 내 빈도 분포)가 전체 텍스트와 통계적으로 동일하게 유지된다. 이를 ‘이동 불변성(translational invariance)’이라고 부른다. 둘째, 구간 길이 (w_T) 가 감소함에 따라 빈도 분포의 꼬리 지수 (\gamma) 가 증가한다. 즉, 작은 구간일수록 (P_{w_T}(k)\sim e^{-bk}/k^{\gamma(w_T)}) 에서 (\gamma) 가 커져서 급격히 가파른 형태가 된다. 이러한 현상은 실제 소설 ‘Howards End’(HE)에서도 동일하게 관찰되었으며, 실험적으로 구간을 20등분, 200등분 등으로 나누어 분석한 결과가 랜덤 북 모델의 예측과 거의 일치한다.
다음으로 저자들은 전통적인 텍스트 진화 모델인 사이먼 모델을 검증한다. 사이먼 모델은 새로운 단어를 도입할 확률과 기존 단어를 선택할 확률이 텍스트 진행에 따라 변화한다는 가정에 기반한다. 이 모델은 ‘우선 연결(preferential attachment)’ 메커니즘을 통해 단어 빈도 분포가 (P(k)\sim k^{-\gamma}) 형태를 갖게 하지만, 텍스트 길이에 독립적인 고정된 (\gamma) 값을 갖는다. 실험 결과, 사이먼 모델이 생성한 텍스트는 구간별 (W_D(w_T)) 와 (P_{w_T}(k)) 가 뚜렷한 위치 의존성을 보이며, 실제 소설이 보여주는 이동 불변성을 전혀 재현하지 못한다. 특히, 희귀 단어가 텍스트 후반에 집중되고, 빈번한 단어가 초반에 과다하게 나타나는 비정상적인 패턴이 관찰된다. 이는 성장 기반 확률 과정이 실제 작가의 글쓰기와는 근본적으로 다른 통계적 구조를 가지고 있음을 의미한다.
핵심적인 수학적 도구로 ‘랜덤 북 변환(Random Book Transformation, RBT)’을 도입한다. 전체 텍스트의 빈도 분포 (P(k)) 와 구간 길이 (w_T) 가 주어지면, 구간 내 빈도 분포 (P_{w_T}(k)) 는 이항 계수를 이용한 삼각 행렬 (A_{k k’}) 와 정규화 상수 (C) 를 통해 정확히 변환될 수 있다. 식 (1)–(4)는 이 변환 과정을 명시적으로 제시하며, 행렬 (A) 는 역행렬을 갖기 때문에 원래의 (P(k)) 를 역변환하여 추정할 수도 있다. 이러한 RBT는 실제 소설 데이터에 적용했을 때, 구간별 빈도 분포를 매우 정확히 재현함을 보이며, 특히 꼬리 부분의 (\gamma) 변화를 정량적으로 설명한다.
결론적으로, 저자들은 (1) 실제 소설이 랜덤 북 모델과 통계적으로 거의 동일한 ‘무작위 배치’ 특성을 보이며, (2) 텍스트 길이에 따라 빈도 분포의 꼬리 지수가 변한다는 ‘크기 의존성’이 존재하고, (3) 사이먼과 같은 성장 기반 모델은 이러한 특성을 설명하지 못한다는 점을 입증한다. RBT는 이러한 현상을 정량화하고, 소설 텍스트의 기본 통계 구조를 파악하는 강력한 도구로 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기