생물학적 정보의 집합 기반 복잡도와 보편 정보 거리
본 논문은 Kolmogorov 복잡도와 보편 정보 거리를 이용해, 무작위 혹은 중복된 서열이 포함된 비트 문자열 집합의 생물학적 의미를 정량화하는 새로운 집합 복잡도 지표 Ψ를 제안한다. 무작위 문자열은 정보 기여도가 0이 되고, 완전 중복도 거의 기여하지 않으며, 개별 문자열의 복잡도와 상호 관계를 동시에 반영한다.
저자: David J. Galas, Matti Nykter, Gregory W. Carter
본 논문은 생물학적 시스템에서 “의미 있는 정보”를 어떻게 정량화할 것인가라는 근본적인 문제에 착안한다. 기존의 정보 이론, 특히 Shannon 정보는 전체 가능한 상태공간을 전제로 하여 평균적인 전송량을 측정한다. 그러나 생물학에서는 가능한 모든 서열이나 구조를 정의하는 것이 비현실적이며, 실제 세포 내에서 기능을 수행하는 특정 서열이나 구조만이 의미를 가진다. 이러한 한계를 극복하고자 저자들은 Kolmogorov‑Chaitin‑Solomonoff(KCS) 복잡도, 즉 객체 자체에 내재된 최소 프로그램 길이 개념을 도입한다. KCS 복잡도는 확률 분포에 의존하지 않으며, 개별 문자열이 얼마나 “설명하기 어려운가”를 측정한다. 비록 KCS 복잡도는 이론적으로는 비계산 가능하지만, 실제로는 Lempel‑Ziv 등 무손실 압축 알고리즘을 통해 근사값을 얻을 수 있다.
논문은 먼저 무작위 문자열과 완전 복제 문자열이 생물학적 의미에서 어떻게 “패러독스”를 일으키는지를 설명한다. 무작위 문자열은 KCS 복잡도 관점에서는 최대 정보를 가지고 있지만, 실제로는 기능이 없으므로 생물학적 정보로는 무의미하다. 반대로 완전 복제된 문자열은 이미 존재하는 정보와 동일하므로, 추가적인 정보 기여가 거의 없거나 전혀 없다고 볼 수 있다. 이러한 두 상황을 동시에 만족하는 정보 측정 지표가 필요하다.
이를 위해 저자들은 집합 S = { x₁,…,x_N }의 각 원소에 대한 기여도를 전체 집합에 의존하는 함수 F_i(S) 로 정의하고, 최종적으로 집합 복잡도 Ψ(S) 를
\
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기