변동 선택압이 단백질 서열 데이터에서 구조 추론을 강화한다
초록
단백질 서열이 진화 과정에서 겪는 선택 강도의 변동은 일시적인 비평형 잡음을 만든다. 저자들은 최소 모델과 실제 합성 데이터를 이용해, 약한 선택과 강한 선택을 교대로 적용하면 구조적 접촉 예측과 상호작용 파트너 추론의 정확도가 향상된다는 것을 보여준다. 이는 자연계에서 흔히 일어나는 선택 압력 변화가 오히려 공동 진화 신호를 증폭시켜 현재의 최대 엔트로피 기반 방법들의 성능을 높일 수 있음을 시사한다.
상세 분석
본 논문은 단백질 서열 진화에서 선택 강도가 시간에 따라 변동할 때, 공동 진화 기반 추론이 어떻게 영향을 받는지를 체계적으로 탐구한다. 먼저, 이소스핀으로 구성된 길이 L=200의 서열을 Erdős‑Rényi 무작위 그래프(연결 확률 0.02) 위에 배치하고, 그래프의 에지에 동일한 강도(=1)의 강자성 결합을 부여한 최소 모델을 구축한다. 이 모델의 해밀토니안 H=−∑_{(i,j)∈E}σ_iσ_j는 구조적 접촉을 직접적으로 나타내며, 선택 강도는 메트로폴리스 샘플링 온도 T로 조절한다. T가 낮을수록 강한 선택(에너지 감소만 허용)으로 서열 다양성이 억제되고, T가 높을수록 약한 선택으로 무작위 변이가 지배되어 신호‑잡음비가 감소한다.
핵심 실험은 텔레그래프 과정으로 T를 T₁(=1)과 T₂(=15) 사이에 전이시키는 것이다. 전이율 1/τ를 다양하게 설정해 빠른 스위칭과 느린 스위칭을 비교한다. 결과는 다음과 같다. (1) 평균 True Positive (TP) 비율은 스위칭 초기 급격히 상승한 뒤 포화에 이르며, 고정된 T₁ 혹은 T₂에서 얻는 TP보다 현저히 높다. (2) 스위칭 속도가 빨라질수록 서열 간 해밍 거리 분포가 넓어져 효과적인 시퀀스 다양성이 증가하고, 이는 곧 mfDCA나 plmDCA 같은 최대 엔트로피 모델의 접촉 예측 정확도를 끌어올린다. (3) 각 서열이 독립적인 텔레그래프 과정을 겪을 때, 즉 자연계에서 종마다 다른 선택 이력을 가질 때 TP 향상이 더욱 두드러진다.
이러한 현상은 페르미‑파라자기 전이점 T_C≈4 근처에서 가장 크게 나타난다. T₁<T_C<T₂ 조합이 최적이며, 두 온도가 모두 T_C 이하 혹은 이상이면 효과가 감소한다. 이는 약한 선택 단계가 서열 다양성을 충분히 확보하고, 강한 선택 단계가 잡음을 억제해 구조적 상관성을 강조한다는 직관과 일치한다.
현실적인 합성 데이터 검증을 위해, 자연 서열(MSA)에서 bmDCA를 이용해 Potts 모델을 추정하고, 동일한 텔레그래프 스키마로 서열을 생성하였다. PF0004(AAA ATPase) 패밀리의 70,000개 서열에 대해 동일한 TP 향상이 관찰되었으며, 최적 온도 T=1에서 얻는 정적 성능과 거의 동등한 수준에 도달했다.
또한, 새로운 선택 압력이 등장하는 상황을 모사하기 위해, 무작위 조상 서열에서 시작해 고정 T에서 구조적 선택을 가하고, 별형(Star) 계통수를 따라 진화시켰다. 강한 선택(T<4) 하에서 중간 정도의 변이 μ가 주어질 때 TP가 최고점에 도달하고, 이후 변이가 과도해지면 성능이 감소한다. 이는 초기 비선택 상태가 일시적인 서열 다양성을 제공해 이후 강한 선택 하에서도 충분한 공동 진화 신호를 남긴다는 것을 의미한다.
마지막으로, 접촉 추론을 넘어 단백질-단백질 상호작용 파트너 예측에도 동일한 현상이 적용됨을 보였다. 최소 모델 내에서 파트너 매칭을 mfDCA 기반 스코어로 수행했을 때, 변동 선택 압력 하에서 TP가 크게 상승하였다.
전반적으로, 논문은 (1) 선택 강도의 시간적 변동이 비평형 잡음을 생성하고, (2) 이 잡음이 서열 다양성을 일시적으로 확대해 공동 진화 신호를 강화한다는 메커니즘을 제시한다. 이는 자연계에서 흔히 발생하는 환경 변화, 항생제 농도 변동, 혹은 실험적 directed evolution 과정에서도 활용 가능함을 시사한다. 또한, 신경 과학 등 다른 분야에서 쌍별 최대 엔트로피 모델을 적용할 때, 외부 입력의 시간적 변동이 추론 성능을 높일 수 있다는 일반적 원칙을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기