영어 텍스트 엔트로피 재조명

본 논문은 2천만 자 이상의 영문 소설을 대상으로 문자 블록(1~500자) 빈도를 직접 계산하여 엔트로피와 중복성을 추정한다. 평균 엔트로피율은 1.58 bits/character, 중복성은 약 74.9%로 제시한다. 또한 “equiprobability distance” 개념을 도입해 표절 탐지와 SNS 메시지 길이 제한 등에 적용 가능성을 논의한다.

저자: Fabio G. Guerrero

본 논문은 영어 텍스트의 엔트로피와 중복성을 직접적인 컴퓨터 계산을 통해 추정하는 새로운 방법론을 제시한다. 연구자는 21권의 고전 소설(총 20,306,606 문자, 3,804,409 단어)을 선정했으며, 이 텍스트는 Gutenberg 프로젝트에서 원본 그대로 확보하였다. 모든 printable 문자(대소문자 구분, 구두점, 공백 포함)를 대상으로 하여, 문자 블록 길이 n을 1부터 500까지 변화시키면서 각 블록의 발생 빈도를 계산한다. 블록은 비중첩 방식으로 추출되며, n개의 시프트(0~n‑1) 각각에 대해 별도로 빈도를 구하고, 그 결과를 평균하여 H_n(엔트로피) 값을 얻는다. 시프트 간 엔트로피 차이는 미미함을 확인했으며, 이는 블록 길이 n만으로도 충분히 안정적인 통계값을 제공한다는 점을 시사한다. 연구는 또한 “equiprobability distance”(n_aep)라는 개념을 도입한다. n_aep는 n ≥ n_aep일 때 모든 시프트에 대해 블록이 거의 동등한 확률로 나타나는 최소 길이이다. 실험 결과, 대부분의 샘플에서 n_aep는 70~80자 수준으로, 비교적 짧은 구간에서도 텍스트가 통계적으로 균등함을 보여준다. 이는 표절 탐지 소프트웨어가 일정 길이 이하의 구간에서는 무작위성에 가까운 패턴을 기대할 수 있음을 의미한다. 엔트로피율(H_L)을 추정하기 위해, 연구자는 조건부 엔트로피 F_N을 구하고 이를 3차 다항식 보간으로 연속 함수 F(N)으로 만든 뒤, F(N)=0이 되는 실근 N_Z를 찾는다. N_Z에 대응하는 H_NZ를 엔트로피율로 정의하고, 알파벳 크기 A_S(문자 종류 수, 대소문자와 구두점 포함)와 결합해 전통적인 중복성 공식 R = 1 – H_L / log₂ A_S 를 적용한다. 결과적으로 평균 H_L은 1.58 bits/character, 중복성 R은 74.86%로 계산되었다. 이는 기존 문헌에서 보고된 0.6~1.3 bits/letter(Shannon)부터 1.77 bits/character(Kontoyiannis)까지의 다양한 추정값과 비교해 현실적인 값에 가깝다. 연산 측면에서는 Mathematica 6 기반의 단순 정렬 알고리즘을 사용했으며, AMD 1.6 GHz 듀얼코어 노트북에서 전체 분석에 약 30시간(코어 병렬 처리로 실제 시간은 절반 수준) 정도 소요되었다. 이는 현대 컴퓨팅 환경에서 충분히 실현 가능한 수준이며, 더 큰 코퍼스나 고성능 클러스터를 이용하면 더욱 정밀한 추정이 가능할 것이다. 논문은 또한 엔트로피가 n=8~11자(약 1.5~2.2단어) 구간에서 최대값에 도달한다는 사실을 발견했다. 이 구간의 최대 엔트로피값만으로도 엔트로피율을 추정할 수 있음을 강조함으로써, 전체 500자까지 계산할 필요가 없다는 실용적 결론을 제시한다. 또한, 시프트별 엔트로피가 매우 유사함을 확인해 블록 길이만으로도 충분히 신뢰할 수 있는 통계치를 얻을 수 있음을 입증한다. 마지막으로, 연구자는 n_aep 개념을 활용해 표절 탐지와 SNS 메시지 길이 제한 등에 대한 실용적 시사점을 제시한다. 예를 들어, 표절 탐지 알고리즘은 n_aep 이하의 구간에서는 무작위성에 가까운 패턴을 기대해야 하며, SNS에서 제한되는 단어 수가 n_aep보다 충분히 커야 의미 전달이 가능하다는 논리를 전개한다. 전체적으로, 본 논문은 대규모 텍스트 코퍼스를 직접 분석함으로써 영어의 엔트로피와 중복성을 보다 현실적인 값으로 제시하고, 이를 기반으로 다양한 응용 분야에 대한 통찰을 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기