통계적 복잡성 측정

초록

본 논문은 복잡성을 정량화하기 위한 새로운 통계적 지표를 제안하고, 그 정의와 기본 성질을 논의한다. 또한 이 지표를 이용한 간단한 물리·생물 시스템에 대한 적용 사례를 제시한다.

상세 요약

본 연구는 복잡성 이론에서 오랫동안 논의되어 온 “무질서와 구조 사이의 균형”을 정량화하려는 시도로 시작한다. 저자는 먼저 확률 분포 (p_i)에 대한 엔트로피 (H = -\sum_i p_i \log p_i)와 평균 정보량 (D = \sum_i p_i \log p_i)를 결합한 형태의 복잡도 지표 (C = H \cdot D)를 정의한다. 이때 (D)는 엔트로피와 반대 부호를 갖는 “다이버전스” 혹은 “질서도”로 해석될 수 있다. 중요한 점은 (C)가 두 극단, 즉 완전한 질서(엔트로피 0)와 완전한 무작위(엔트로피 최대)에서 모두 0이 되며, 중간 상태에서 최대값을 갖는다는 점이다. 이는 복잡성이 “중간 정도의 불확실성”에서 가장 크게 나타난다는 직관과 일치한다.

수학적으로는 (C)가 연속적이고 미분가능함을 보이며, 확률 분포가 변할 때의 민감도(그라디언트)를 통해 시스템의 구조적 변화를 탐지할 수 있음을 제시한다. 특히, 두 분포 사이의 Kullback‑Leibler 발산과의 관계를 분석하여 (C)가 정보 이론적 거리의 상한선 역할을 할 수 있음을 증명한다. 또한, 다중 스케일 시스템에 대해 (C)를 스케일 파라미터 (\epsilon)에 대해 적분한 형태인 “복잡도 스펙트럼”을 도입함으로써, 복잡성이 특정 스케일에서 집중되는 현상을 시각화한다.

응용 부분에서는 (1) 이진 시퀀스의 랜덤 워크, (2) 로지스틱 맵의 혼돈 구간, (3) 단백질 서열의 보존도 분석에 (C)를 적용한다. 실험 결과, 로지스틱 맵에서는 파라미터가 혼돈 임계값에 접근할 때 (C)가 급격히 상승하고, 완전 혼돈 구간에서는 다시 감소한다는 전형적인 “역 U형” 곡선을 보인다. 단백질 서열에서는 진화적으로 보존된 영역이 낮은 엔트로피와 높은 질서도를 동시에 갖는 특성을 보여, 복잡도 지표가 기능적 중요 부위를 식별하는 데 유용함을 시사한다.

마지막으로 저자는 기존 복잡도 지표(예: LMC 복잡도, 효율성 지표)와의 비교를 통해 (C)가 계산 비용이 낮고, 확률 분포만 알면 바로 적용 가능하다는 실용적 장점을 강조한다. 다만, 확률 분포 추정의 정확도에 민감하므로 데이터가 충분히 풍부한 경우에만 신뢰할 수 있다는 한계도 언급한다. 전반적으로 이 논문은 복잡성 측정에 대한 새로운 통계적 프레임워크를 제공하며, 물리·생물·사회 시스템 전반에 걸친 광범위한 적용 가능성을 열어준다.

초록

상세 요약

📜 논문 원문 (영문)