안정적인 콜모고로프 차틴 복잡도 정의를 향하여
초록
본 논문은 Kolmogorov‑Chaitin 복잡도 K(s)의 값이 프로그래밍 언어에 따라 크게 달라지는 문제를 다룬다. 저자들은 “자연스러운” 모델을 찾기 위해 서로 다른 계산 모델(2‑state 2‑symbol 튜링 머신과 1‑차원 셀룰러 오토마톤)의 출력 확률 분포가 수렴한다는 실험적 증거를 제시한다. 이 수렴성을 이용해 상수 차이를 최소화하고, 문자열들의 복잡도 순서를 보존하는 안정적인 K 정의를 제안한다.
상세 분석
Kolmogorov‑Chaitin 복잡도 K(s)는 “가장 짧은 프로그램 길이”로 정의되지만, 실제 계산에서는 선택된 보편 튜링 머신(U)이나 프로그래밍 언어에 따라 큰 상수 차이가 발생한다. 기존 이론은 두 머신 L₁, L₂ 사이에 상수 C가 존재한다는 불변성 정리를 제시하지만, C의 크기가 실용적인 K값을 왜곡할 수 있음을 저자들은 강조한다. 특히 짧은 문자열에 대해서는 상수 자체가 문자열 길이와 동등하거나 그보다 커져, 압축 기반 추정이 무의미해진다.
이러한 문제를 해결하고자 저자들은 “자연스러운” 모델을 정의하는 새로운 접근법을 제안한다. 핵심 아이디어는 서로 다른 계산 모델들의 출력 확률 분포 D₁, D₂가 충분히 큰 샘플과 충분한 실행 단계에서 수렴한다는 가정이다. 만약 D₁과 D₂가 높은 상관관계를 보이며, 문자열들의 빈도 순위가 동일한 대칭군(역전, 보완, 그 조합)으로 묶인다면, 두 모델 사이의 상수 C는 실질적으로 작아진다.
실험에서는 (2,2) 튜링 머신 집합 TM(2,2)와 1‑차원 셀룰러 오토마톤 집합 CA(1)을 선택하였다. TM(2,2)은 4096개의 머신을, CA(1)은 256개의 elementary cellular automata를 포함한다. 각 모델을 동일한 초기 조건(전부 0 또는 전부 1)으로 실행하고, n × 10 단계(예: n=3일 때 30 단계) 후에 생성된 모든 길이 n의 출력 문자열을 수집했다. 그 결과, 문자열 빈도 분포는 높은 Pearson 상관계수와 시각적 매칭을 보였으며, 특히 역전·보완 대칭에 따라 문자열이 그룹화되는 패턴이 일관되었다.
이러한 관찰을 정량화하기 위해 저자들은 Burnside의 정리를 활용해 대칭군에 의해 형성되는 복잡도 클래스 C를 정의하였다. 각 클래스는 동일한 K값을 갖는 문자열들의 집합이며, 대칭 변환(정체, 역전, 보완, 복합)으로부터 파생된 4개의 변환군을 고려한다. Burnside 식을 적용하면, 예를 들어 n이 짝수일 때 복잡도 클래스의 개수는 (2ⁿ + 2·(n+1)/2)/4 로 계산된다. 이를 통해 원본 분포 D를 축소한 Dʳ을 얻고, 두 모델 간의 순위 상관을 대칭 효과에 의해 왜곡되지 않도록 보정한다.
결과적으로, TM과 CA 사이의 출력 분포는 충분히 큰 n에 대해 수렴하고, 동일한 복잡도 클래스를 공유한다는 점에서 “자연스러운” 모델군으로 간주될 수 있다. 이러한 모델군 내에서는 상수 C가 작아져, K(s)의 상대적 순서가 보존되며, 짧은 문자열에 대한 실험적 K값도 안정적으로 추정 가능하다. 저자들은 이 접근법이 기존의 압축 기반 추정보다 더 객관적이며, 프로그래밍 언어에 의존하지 않는 K 정의에 한 걸음 다가섰다고 주장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기