정보 보존과 거듭 제곱 법칙: 이산 토큰 시스템의 일반 이론

초록

이 논문은 이산 토큰 기반 시스템(소프트웨어와 유전체)에서 하틀리‑샤논 정보의 보존이 에너지 보존과 유사한 근본 원리임을 제시한다. 정보 보존 가정으로부터 구성 요소 크기의 분포가 파워‑법칙을 따름을 수학적으로 증명하고, 실제 대규모 소프트웨어와 유전체 데이터에서 이를 실증한다.

상세 분석

본 연구는 물리학에서 에너지 보존이 시스템 거동을 제약하는 기본 원리인 것처럼, 이산 토큰 시스템에서도 하틀리‑샤논 정보량(즉, 로그 기반의 심볼 수)의 총량이 보존된다고 가정한다. 이 가정은 토큰(코드 라인, 함수, 유전자 등)의 전체 정보가 시스템 전체에 걸쳐 일정하게 유지된다는 의미이며, 이는 토큰이 재배치되거나 재구성될 때도 전체 정보량이 변하지 않음을 전제로 한다.

수학적 전개는 먼저 시스템을 N개의 구성 요소로 나누고, 각 구성 요소 i가 ni개의 토큰을 포함한다고 정의한다. 전체 토큰 수 T=∑i ni이며, 전체 정보량 I=∑i ni·log ni 로 표현한다. 정보 보존 가정에 따라 I는 고정값 I0이다. 라그랑주 승수를 이용해 I0을 최소화 조건으로 두고, 자유도인 {ni}에 대해 변분을 수행하면 최적 분포는 파워‑법칙 형태, 즉 P(ni)∝ni^−α 를 만족한다. 여기서 α는 정보 보존 정도와 시스템 규모에 따라 결정되는 상수이며, 실험적으로 1~2 사이값을 보인다.

이론적 결과는 두 가지 실증적 영역에 적용된다. 첫째, 대규모 오픈소스 프로젝트(수백만 라인 코드)에서 함수·클래스·파일 크기 분포를 측정한 결과, 로그‑로그 플롯에서 직선 형태를 보이며 α≈1.5 정도의 파워‑법칙을 확인했다. 둘째, 유전체 데이터(인간·마우스·식물 등)에서 유전자 길이 분포가 동일한 파워‑법칙을 따르며, 평균 유전자 길이가 종 간에 거의 일정함을 재현한다. 이는 기존 연구(Lin Xu 등, 2019)와 일치한다.

또한 논문은 정보 보존이 시스템 진화와 최적화 과정에서도 유지된다는 점을 강조한다. 코드 리팩터링이나 유전자 재조합이 일어나더라도, 전체 정보량은 변하지 않으며, 이는 시스템이 자가 조직화되는 메커니즘을 설명한다. 이러한 관점은 복잡계 이론과 정보 이론을 연결하는 새로운 프레임워크를 제공한다.

마지막으로, 연구는 몇 가지 한계와 향후 과제를 제시한다. 토큰 정의의 다양성(예: 소스 코드의 토큰화 방식, 유전자의 기능적 구분)과 외부 환경(컴파일러 최적화, 선택압) 등이 α값에 미치는 영향을 정량화해야 한다. 또한, 비정형 데이터(텍스트, 이미지)에도 동일한 원리가 적용되는지 탐색할 필요가 있다.