공진화는 계통학 마르코프 가정과 양립할 수 없다

본 연구는 곰팡이 3종의 수백 개 직교 집합을 이용해 단백질 상호작용에 의한 공진화가 전통적인 마르코프 모델의 독립성 가정을 위배함을 실증하였다. 결과는 극단적인 공진화 상황에서 기존 확률 모델이 부적합함을 시사한다.

공진화는 계통학 마르코프 가정과 양립할 수 없다

초록

본 연구는 곰팡이 3종의 수백 개 직교 집합을 이용해 단백질 상호작용에 의한 공진화가 전통적인 마르코프 모델의 독립성 가정을 위배함을 실증하였다. 결과는 극단적인 공진화 상황에서 기존 확률 모델이 부적합함을 시사한다.

상세 요약

이 논문은 분자 진화 분석에 널리 쓰이는 시간 연속 마르코프 모델이 “현재 상태는 바로 직전 상태에만 의존한다”는 가정을 전제로 한다는 점을 출발점으로 삼는다. 그러나 최근 단백질-단백질 상호작용을 통한 공진화 현상이 보고되면서, 두 유전자가 동시에 변이하거나 서로의 변이를 촉진하는 메커니즘이 존재한다는 것이 밝혀졌다. 저자들은 이를 검증하기 위해 세 종(세 가지 곰팡이)의 직교(orthologous) 유전자 집합을 300여 개 이상 수집하고, 각각의 유전자쌍이 물리적·기능적 상호작용을 갖는지 여부를 기존 데이터베이스(예: STRING, BioGRID)와 교차 검증하였다.

분석 흐름은 크게 네 단계로 구성된다. 첫째, 각 유전자에 대해 3종의 염기서열을 정렬하고, 최대우도법으로 전통적인 4×4(핵산) 혹은 20×20(아미노산) 마르코프 전이 행렬을 추정했다. 둘째, 상호작용하는 유전자쌍과 비상호작용 쌍을 구분한 뒤, 각 쌍에 대해 조건부 확률 P(자식 상태|부모 상태)와 P(자식 상태|부모와 조부모 상태)의 차이를 계산하였다. 셋째, 공진화가 강하게 예상되는 상호작용 쌍에서는 조부모 정보를 포함했을 때 예측 정확도가 유의하게 향상되는 반면, 비상호작용 쌍에서는 차이가 미미했다는 사실을 통계적으로 검증하였다(부트스트랩 p<0.01). 넷째, 이러한 결과를 바탕으로 마르코프 가정이 위배되는 구체적 메커니즘을 제시한다. 즉, 상호작용 단백질은 구조적 제약과 기능적 보완성 때문에 특정 아미노산 변이가 동시에 발생하거나, 한쪽 변이가 다른 쪽의 선택압을 변화시켜 연쇄적인 변이를 유발한다. 이는 “조건부 독립성”을 깨뜨리는 사례이며, 전통적인 1차 마르코프 모델로는 이러한 상관관계를 포착할 수 없다는 결론으로 이어진다.

저자들은 또한 기존 모델의 한계를 보완하기 위한 대안으로, 2차 마르코프(두 단계 의존) 혹은 그래프 기반 베이지안 네트워크를 제안한다. 이러한 모델은 노드(유전자) 간의 상호작용 엣지를 명시적으로 포함함으로써, 공진화에 의해 발생하는 비선형 의존성을 수학적으로 표현할 수 있다. 마지막으로, 공진화가 강하게 작용하는 경우(예: 복합체 형성 단백질, 신호 전달 경로)에는 모델 선택이 진화 속도 추정, 계통수 재구성, 그리고 기능 예측에 중대한 영향을 미칠 수 있음을 강조한다.

전반적으로 이 논문은 마르코프 가정이 “모든 경우에 일반적”이라는 전통적 믿음을 재검토하도록 촉구하며, 특히 고도 상호작용 네트워크를 갖는 유전체 영역에서는 보다 복합적인 확률 모델이 필요함을 실증적으로 보여준다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...