인간 프로모터 서열의 복잡성
초록
본 연구는 4,737개의 인간 프로모터 서열에 확산 엔트로피(diffusion entropy) 방법을 적용해 스케일 불변성을 분석하였다. 스케일‑인덱스 δ는 0.3에서 0.9 사이에 분포했으며, 평균값 δ₍c₎≈0.66을 중심으로 좌·우 비대칭적인 두 개의 가우시안 형태로 나타났다. 이는 인간 프로모터가 다양한 장거리 상관구조를 가지고 있음을 시사한다.
상세 분석
본 논문은 인간 전사 시작점인 프로모터 영역에 내재된 장거리 상관성을 정량화하기 위해 확산 엔트로피(DEA)라는 비선형 통계 물리학 기법을 도입하였다. 먼저 DNA 서열을 4개의 염기(A, T, C, G)를 2진 혹은 3진 수열로 매핑하여 시간(위치) 흐름에 따른 ‘걸음(step)’ 시퀀스를 만든다. 이 시퀀스를 누적합해 가상의 입자 궤적을 생성하고, 일정 시간(윈도우) t 내에서 입자 위치 분포 P(x,t)를 구한다. 이후 엔트로피 S(t)=−∑P(x,t)logP(x,t)를 계산하면, 스케일링 법칙 S(t)=δ·log t+const 가 성립하는 구간에서 δ 값을 추정할 수 있다. δ가 0.5이면 무작위 워크, 0.5보다 크면 장거리 양의 상관(지속성), 0.5보다 작으면 반대 상관(반지속성)을 의미한다.
연구진은 4,737개의 인간 프로모터 서열(−1 kb~+100 bp 기준)을 대상으로 DEA를 수행했으며, δ 값이 0.3~0.9 사이에 넓게 퍼져 있음을 발견했다. 평균값 δ₍c₎≈0.66은 대부분의 프로모터가 양의 장거리 상관을 보이며, 이는 전사 인자 결합 부위가 일정한 패턴을 유지하면서도 변동성을 허용한다는 생물학적 의미를 갖는다.
δ 분포를 히스토그램으로 나타내면 중앙에 뾰족한 피크가 존재하고, 피크를 기준으로 좌우가 비대칭적인 두 개의 구간으로 나뉜다. 좌측(δ<δ₍c₎)과 우측(δ>δ₍c₎) 구간 각각을 가우시안 함수로 피팅했을 때, 평균은 동일하지만 표준편차가 다르게 나타났다. 즉, δ가 평균보다 낮은 경우 변동성이 더 크게 나타나며, 이는 프로모터가 보다 불규칙하거나 복합적인 구조를 가질 가능성을 시사한다. 반대로 δ가 평균보다 높은 경우는 비교적 좁은 분포를 보여, 특정 전사 조절 메커니즘이 강하게 작용하는 서열군이 존재함을 암시한다.
이러한 결과는 기존에 보고된 프로모터의 ‘프랙탈’ 혹은 ‘멀티프랙탈’ 특성과 일맥상통한다. 특히, 전사 인자 결합 부위와 CpG 섬, TATA 박스 등 핵심 요소들이 서로 다른 거리 척도에서 상호작용함으로써 복합적인 상관구조를 형성한다는 가설을 뒷받침한다. 또한, δ 값이 0.5 이하인 소수의 프로모터는 전사 억제 혹은 특수한 조직·발달 단계에서의 조절에 관여할 가능성이 있다.
기술적 한계로는 염기 매핑 방식에 따라 δ 값이 민감하게 변할 수 있다는 점, 윈도우 크기 선택이 결과에 영향을 미친다는 점, 그리고 DEA가 비선형 상관을 포괄적으로 포착하지만 구체적인 생물학적 메커니즘을 직접적으로 밝히지는 못한다는 점을 들 수 있다. 향후 연구에서는 매핑 방식을 다변화하고, ChIP‑seq 등 실험적 데이터와 연계해 δ 값과 전사 인자 결합 강도 간의 상관관계를 검증하는 것이 필요하다.
요약하면, 인간 프로모터 서열은 단순한 무작위 배치가 아니라, 0.3~0.9 사이의 스케일링 지수를 갖는 복합적인 장거리 상관 구조를 가지고 있다. 이 구조는 중앙값을 중심으로 비대칭적인 두 가우시안 분포로 나타나며, 이는 프로모터가 다양한 조절 모드와 기능적 다양성을 동시에 내포하고 있음을 의미한다.
댓글 및 학술 토론
Loading comments...
의견 남기기