과잉 정보로 셀룰러 자동자에서 나타나는 현상 탐지

이 논문은 복잡계 연구에서 흔히 언급되는 “출현(emergence)” 현상을 정량적으로 탐지하고 정의하기 위한 새로운 프레임워크를 제시한다. 연구의 출발점은 자연 현상이 공간·시간적 특성 스케일에 따라 다르게 표현된다는 관찰이다. 이를 위해 저자는 두 가지 주요 기여를 한다. 첫 번째는 셀룰러 자동자를 다양한 스케일로 유연하고 확장 가능하게 코스그레이닝(coarse‑graining)하는 절차를 설계한 것이다. 두 번째는 각 코스그레이닝이 원래 자동자의 동역학을 얼마나 잘 포착하는지를 판단하기 위한 정보‑이론적 지표, 즉 ‘효과적 정보(effective information, ei)’와 ‘과잉 정보(excess information, ξ)’를 도입한 것이다. **1. 셀룰러 자동자의 형식적 정의** 셀룰러 자동자는 유한 방향 그래프 \(X\)와 그 정점 집합 \(V_X\) (각 정점은 ‘occasion’, 즉 특정 셀과 시간의 조합)으로 구성된다. 각 occasion \(v_l\)는 출력 알파벳 \(A_l\)와 메커니즘 \(p_l(a_l|s_l)\)를 가진다. 여기서 \(s_l\)는 해당 정점에 들어오는 모든 입력 알파벳의 결합이며, 메커니즘은 입력에 대한 출력 확률을 정의한다. 입력은 Pearl의 do‑연산을 통해 외부 간섭을 명시적으로 모델링한다. **2. 코스그레이닝 절차** 코스그레이닝은 세 부분으로 나뉜 파티션 \(G\) (ground), \(C\) (channel), \(U_1,\dots,U_N\) (units)으로 occasion들을 분할한다. - *Ground*는 초기 조건을 고정하는 역할을 하며, 해당 occasion들의 출력은 외부에서 지정된다. - *Channel*는 투명화된 중간 단계로, 이들을 마진화함으로써 유닛 간 직접적인 상호작용을 만든다. - *Units*는 새로운 macro‑occasion이 되며, 각 유닛의 알파벳은 포함된 occasion들의 알파벳의 곱으로 정의된다. 코스그레이닝 알고리즘은 다음 5단계로 진행된다. 1) 외부 입력을 균등 분포로 마진화해 내부 정보 흐름만 남긴다. 2) Ground를 고정하여 초기 상태를 설정한다. 3) Channel을 마진화해 투명하게 만든 뒤, 남은 유닛들만으로 새로운 메커니즘을 재구성한다. 4) 유닛 간 실제 영향을 기반으로 효과적 그래프를 만든다(두 유닛 사이에 에지가 존재하려면 한 유닛의 출력이 다른 유닛의 출력 분포를 변화시켜야 함). 5) 동일한 효과를 가진 출력들을 동등 클래스화하여 macro‑alphabet을 정의하고, 최종적으로 새로운 셀룰러 자동자 \(X^K\)를 얻는다. **3. 정보‑이론적 지표** - *효과적 정보(ei)*: 특정 출력 \(x_{out}\)에 대해, 해당 출력을 일으키는 입력 집합의 크기를 로그로 측정한다. 수식적으로는 KL‑다이버전스를 이용해 \(\displaystyle ei(m,x_{out}) = D_{KL}\big(\hat p_m(X_{in}|x_{out})\|p_{unif}(X_{in})\big)\) 로 정의된다. 여기서 \(\hat p\)는 do‑연산을 통해 입력을 강제로 설정한 뒤 메커니즘을 적용해 얻은 ‘실제 레퍼토리’이다. - *과잉 정보(ξ)*: 전체 시스템이 생성한 ei와 그 시스템을 파티션 \(P\)에 따라 부분 시스템들로 나누었을 때 각각이 생성하는 ei의 합 사이 차이이다. \(\displaystyle \xi(m,P,x_{out}) = ei(m,x_{out}) - \sum_{j} ei(m_j,x_{out})\). 최적 파티션(MIP)은 정규화된 과잉 정보를 최소화하는 파티션으로, 실제 계산에서는 이진 파티션만 고려한다. ξ가 양수이면 시스템 전체가 부분들의 단순 합보다 더 많은 정보를 생성한다는 의미이며, 이는 ‘시너지’ 혹은 ‘출현’ 현상의 정량적 증거가 된다. **4. 적용 사례: 게임 오브 라이프** 게임 오브 라이프는 2차원 격자에서 이진 셀들이 주변 8개의 셀 상태에 따라 결정론적으로 업데이트된다. 저자는 3×3 패치를 하나의 unit으로 정의하고, 시간에 따라 이동하는 glider를 관찰한다. glider가 포함된 unit은 다른 시간 단계에서도 동일한 패턴을 유지하면서 이동하기 때문에, 해당 unit의 ei와 ξ가 크게 양수임을 확인한다. 반면, 빈 공간이나 정적인 블록은 ξ가 거의 0이거나 음수이며, 이는 정보가 중복되거나 별다른 시너지 효과가 없음을 의미한다. 이러한 결과는 “glider는 개별 셀들의 단순 합보다 복합적인 정보 처리를 수행한다”는 직관과 일치한다. **5. 적용 사례: 홉필드 네트워크** 홉필드 네트워크는 확률적 이진 뉴런들의 집합으로, 각 뉴런은 이전 시간 단계의 전체 상태에 대한 가중합을 통해 활성화 확률을 결정한다. 저자는 네트워크에 여러 저장된 패턴(attractor)을 삽입하고, 특정 패턴 전이 과정에서 유닛 집합이 높은 ξ를 보이는 것을 발견한다. 이는 네트워크가 저차원 매크로 상태(패턴) 사이를 전이하면서 복잡한 동역학을 구현한다는 것을 의미한다. **6. 출현의 정식 정의** 논문은 “출현 과정은 더 큰 스케일에서 더 잘 표현된다”는 원칙을 정식화한다. 구체적으로, 어떤 코스그레이닝 \(K\)에 대해 ei와 ξ가 모두 최대가 되는 경우, 그 코스그레이닝이 해당 프로세스의 가장 적절한 설명 수준이라고 정의한다. 이는 기존의 예측 가능성 기반 출현 정의와 차별화된다. 기존 방법은 모델 선택에 의존하거나 매크로 변수의 정의가 주관적이었지만, 본 접근법은 메커니즘 자체의 정보 선택성에 기반하므로 모델‑독립적인 객관성을 제공한다. **7. 의의와 한계** 본 연구는 (1) 코스그레이닝을 통해 셀룰러 자동자를 또 다른 셀룰러 자동자로 변환함으로써 스케일 변환을 구조적으로 수행하고, (2) 효과적·과잉 정보를 이용해 출현 현상을 정량화함으로써 직관적인 사례(글라이더, 패턴 전이)를 수학적으로 뒷받침한다는 점에서 의미가 크다. 다만, ξ를 계산하기 위해서는 모든 가능한 파티션을 탐색해야 하는 계산 복잡도가 급격히 증가한다는 한계가 있다. 저자는 이를 완화하기 위해 이진 파티션만 고려했으며, 향후 효율적인 근사 알고리즘 개발이 필요함을 언급한다. **8. 결론** 결국, 이 논문은 셀룰러 자동자와 같은 이산 동역학 시스템에서 “출현”을 정의하고 탐지하기 위한 체계적인 프레임워크를 제공한다. 코스그레이닝 절차와 정보‑이론적 지표를 결합함으로써, 연구자는 시스템의 다양한 스케일을 비교하고, 어느 스케일이 가장 풍부한 정보 시너지를 제공하는지를 객관적으로 판단할 수 있다. 이는 복잡계, 인공생명, 신경과학 등 다양한 분야에서 출현 현상을 정량적으로 분석하고 설계하는 데 유용한 도구가 될 것이다.

과잉 정보로 셀룰러 자동자에서 나타나는 현상 탐지

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기