보존된 정보가 이끄는 단백질·소프트웨어 길이 분포: CoHSI 정규분포의 심층 탐구

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 Hartley‑Shannon 정보 보존 원리(CoHSI)를 통계역학에 적용해 이산 시스템(단백질, 소프트웨어 함수, 책 등)의 구성요소 길이 분포를 설명한다. 핵심 방정식(1·2)을 수치적으로 풀어 α·β 라그랑주 승수를 변화시켰을 때 나타나는 급격한 피크와 장측 파워‑law 꼬리를 분석하고, UniProt·TrEMBL 데이터와의 정량적 일치를 제시한다.

상세 분석

**
CoHSI는 “Hartley‑Shannon 정보는 모든 미시상태에서 동일하게 유지된다”는 가정에서 출발한다. 저자들은 M개의 박스(컴포넌트) 각각에 ti개의 토큰(베드)을 a i개의 고유 알파벳(색)으로 채우는 모델을 설정한다. 토큰 순서가 구분 가능하므로, 각 박스의 가능한 배열 수 N(ti,ai;ai)는 조합‑중복·순열을 고려한 복합 함수이며, 재귀식(표 1)으로 계산된다.

통계역학적 라그랑주 승수 α(정규화)와 β(형상) 를 도입해 최대 엔트로피 원리를 적용하면, 길이 ti에 대한 암묵적 방정식

log ti = −α − β · (d/dti) log N(ti,ai;ai) (1)

을 얻는다. 작은 ti에 대해서는 Stirling 근사 대신 Ramanujan 보정(2)을 사용해 정확성을 높였다. ti≫ai인 경우, N의 로그 미분이 log ai 로 수렴하면서 방정식은

log ti = −α − β log ai (4)

으로 단순화되고, 이를 적분하면

ti = e^{−α} · ai^{−β} (5)

이라는 파워‑law 형태가 도출된다. 여기서 β는 꼬리 기울기(≈1/β) 를, α는 전체 확률밀도함수(pdf)의 면적을 1로 맞추는 정규화 상수 역할을 한다.

수치 해석에서는 ti와 ai를 1‥100, 1‥50 범위의 격자에 대해 log N을 미리 계산하고, 이산 미분을 이용해 (2)를 bisection 방법으로 풀었다. ti≥4에서는 수렴이 안정적이며, ti<a i에서는 해가 존재하지 않음에 유의한다.

α와 β를 각각 고정·변경하면서 얻은 pdf는 두드러진 피크와 긴 꼬리를 동시에 보인다. β를 증가시키면 피크가 좌측으로 이동하고 파워‑law 꼬리는 완만해진다(그림 5). 반대로 α를 증가시키면 피크가 우측으로 이동하지만 꼬리 형태는 거의 변하지 않는다(그림 6). 이는 작은 ti 구간에서 α·β가 동시에 정규화와 형상에 기여한다는 점을 보여준다.

실제 데이터와의 비교에서는 TrEMBL(버전 15‑07, 17‑03) 단백질 길이 분포가 모델의 예측과 거의 일치한다. 특히 40~5000 아미노산 구간에서 파워‑law 기울기(≈‑3.13)가 관측되었으며, 이는 α≈4‒5, β≈0.2‒0.3 영역에서 가장 높은 adjusted R²(≈0.95)와 일치한다(그림 7·8). 따라서 CoHSI는 복잡한 생물학적·소프트웨어 시스템에서도 “평균 길이 보존”과 “긴 컴포넌트의 빈번한 발생”을 전역적인 수학적 필연성으로 설명한다는 결론을 얻는다.

보존된 정보가 이끄는 단백질·소프트웨어 길이 분포: CoHSI 정규분포의 심층 탐구

초록

상세 분석

댓글 및 학술 토론

의견 남기기