엔트로피 원리로 보는 베른포드 법칙의 직접 유도
초록
본 논문은 디지털 파일이 샤논 한계, 즉 최대 엔트로피 상태에 있을 때 첫 자리 숫자들의 분포가 베른포드 법칙을 따른다는 일반적인 기준을 제시한다. 볼-박스 모델과 통계역학적 최대 엔트로피 원리를 이용해 확률분포를 유도하고, 이를 베른포드 법칙의 로그식과 일치시킨다.
상세 분석
논문은 먼저 “숫자”를 1의 단위인 ‘볼’의 집합으로 해석한다. 예를 들어 숫자 8은 8개의 볼이 들어있는 박스 하나로 본다. 이렇게 하면 N개의 자리수(박스)와 전체 볼 수 P가 정의되고, 모든 가능한 볼‑박스 배치가 동일한 확률을 갖는다고 가정한다. 이는 통계물리학에서 미시상태가 균등하게 분포한다는 ‘평형’ 조건과 동일하며, 정보이론에서는 데이터가 압축된 샤논 한계에 도달했을 때의 상태와 일치한다.
볼‑박스 배치를 ‘볼의 총수 P가 고정된 N개의 박스에 대한 최대 엔트로피 분포’를 찾는 문제로 전환한다. 엔트로피 S는 가능한 배치 수 Ω의 로그이며, Stirling 근사를 이용해
(S \approx -\sum_{n=0}^{B-1}\phi(n)\ln\phi(n))
형태로 표현한다. 여기서 (\phi(n))은 n개의 볼을 가진 박스의 비율이다. 제약조건은 전체 볼 수 (\sum n\phi(n)=P/N)와 정규화 (\sum\phi(n)=1)이다. 라그랑주 승수를 도입해 변분하면
(\phi(n)=C,\exp(-\beta n))
가 얻어지고, 정규화와 제약조건을 적용하면 (\beta)가 사라진다. 최종적으로
(\phi(n)=\frac{\log_{10}(1+1/n)}{\log_{10}B})
가 되며, B=10일 때는 베른포드 법칙의 전형적인 형태인
(\rho(n)=\log_{10}(1+1/n))
과 정확히 일치한다.
핵심 통찰은 ‘각 박스가 동일한 확률로 1볼을 받는다’는 가정이 ‘볼이 박스에 고르게 배치된다’는 전제와 동치이며, 이는 최대 엔트로피(샤논 한계)와 동일시될 수 있다는 점이다. 따라서 데이터가 압축된 상태, 즉 정보가 중복 없이 최적화된 경우 자동으로 베른포드 분포를 보인다. 이론적으로는 베이스가 10이 아닌 경우에도 동일한 로그 형태가 나오며, 베른포드 법칙이 베이스 독립적인 현상임을 설명한다. 또한, 저자는 이 결과를 플랑크 분포와 연결 지어, 물리학적 통계와 숫자학적 현상이 동일한 엔트로피 원리에서 파생될 수 있음을 암시한다.
하지만 논문은 몇 가지 한계도 가지고 있다. 첫째, ‘볼‑박스’ 모델이 실제 연속적인 실수 데이터나 복잡한 계량경제 데이터에 어떻게 매핑되는지에 대한 구체적인 절차가 부족하다. 둘째, Stirling 근사는 큰 N, P에만 정확하므로 작은 데이터셋에서는 경험적 베른포드와 차이가 발생한다는 점을 실험적으로 보여주지 않는다. 셋째, 0을 제외하고 1~9만을 고려하는 이유를 ‘빈 박스’를 제외한다는 설명으로만 남겨두어, 0이 포함된 경우(예: 소수점 이하 자리)와의 확장 가능성을 논의하지 않는다. 그럼에도 불구하고, 엔트로피 기반 접근은 베른포드 법칙을 확률론적·물리학적 근거와 연결시키는 새로운 시각을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기