계통수 시간 정보로 보는 분기 시점 분석 방법
초록
본 논문은 계통수의 분기 시점을 상대적으로 비교하는 새로운 통계적 프레임워크를 제시한다. 형제 클레이드 간의 다양화 “버스트” 혹은 “규칙적” 패턴을 탐지하기 위해 각 내부 노드에서 발생 순서를 ‘셔플’ 형태로 요약하고, 이를 무작위성의 귀무모델과 비교한다. 저자들은 두 종류의 중립 모델(계통 전반에 걸친 일정한 라인별 모델과 상대 확률 일정 모델)을 정의하고, 이들 모델이 셔플에 대해 균등 분포를 만든다는 점을 증명한다. 실제 데이터로는 C형 간염 바이러스와 개미 계통수를 분석해, 전자는 라인별 버스트 현상이, 후자는 그렇지 않음을 보여준다.
상세 분석
이 연구는 기존의 라인스-쓰루-타임(LTT) 플롯이나 γ‑통계가 포착하지 못하는 “라인별 시간 비대칭성”을 정량화하려는 시도이다. 핵심 아이디어는 각 내부 노드에서 두 하위 서브트리(왼쪽·오른쪽)의 내부 노드 순서를 보존하면서, 전체 내부 노드들의 순서를 하나의 전체 순서로 결합하는 ‘셔플’ 개념이다. 셔플은 (m,n) 형태의 문자열로, m은 왼쪽 서브트리의 내부 노드 수, n은 오른쪽 서브트리의 내부 노드 수를 의미한다. 예를 들어, ‘BBBBBAAAAAA’와 같은 셔플은 초기에는 B쪽(오른쪽)에서 연속적인 분기가 일어나고, 이후 A쪽(왼쪽)에서 급격히 분기가 발생했음을 나타낸다.
저자들은 두 종류의 중립 모델을 제시한다. 첫 번째는 “라인 전반에 걸친 일정 모델(constant‑across‑lineage)”로, 이는 전통적인 코알레센트 혹은 Yule 모델을 일반화한 것으로, 각 내부 노드에서 발생 순서는 완전히 무작위이며, 따라서 셔플은 균등하게 선택된다. 두 번째는 “상대 확률 일정 모델(constant‑relative‑probability)”로, 라인별 성장률이 시간에 따라 변할 수 있지만, 두 라인 간의 상대적 발생 확률은 일정하다고 가정한다. 이 모델 역시 셔플에 대해 균등 분포를 만든다.
통계적 검정은 셔플의 ‘런(run)’ 수를 이용한다. 런은 연속된 동일 문자 구간의 개수이며, 균등 셔플에서 런의 분포는 고전적인 조합론적 결과로 정확히 계산된다. 관측된 런 수가 기대값보다 현저히 적거나 많으면, 즉 한 라인이 장기간 독점하거나 교대로 번갈아 가며 분기한다면, 귀무모델을 기각하고 라인별 버스트 혹은 규칙적 패턴을 주장한다. p‑값은 런 수에 대한 누적 확률로 산출되며, 다중 노드에 대해 동시에 검정할 경우 보정이 필요하다.
방법론적 강점은 (1) 전체 트리 구조와 분기 순서를 동시에 활용한다는 점, (2) 복잡한 베이즈 모델링 없이도 간단한 조합론적 검정으로 귀무분포를 정의한다는 점, (3) 코알레센트와 Yule 모델을 포함한 광범위한 중립 가설을 포괄한다는 점이다. 한계는 (가) 내부 노드 순서가 정확히 추정돼야 한다는 전제, (나) 다중 비교 시 보정이 필요함, (다) 다분기 트리(다자식 노드)에서는 추가적인 확장이 필요하다는 점이다.
실제 데이터 적용에서는 C형 간염 바이러스(HCV) 계통에서 특정 라인이 초기 급증 후 다른 라인이 뒤따르는 패턴이 관찰돼, p‑값이 0.01 이하로 유의미함을 보였다. 이는 바이러스 전파 과정에서 특정 클레이드가 초기 전파를 주도하고, 이후 다른 클레이드가 확산하는 ‘버스트’ 현상으로 해석될 수 있다. 반면, 개미(ants) 대규모 계통에서는 전체적인 다양화 속도 상승은 있었지만, 라인별 셔플 분석에서는 런 수가 기대 범위 내에 머물러 라인별 버스트는 없다고 결론지었다. 이는 전반적인 환경 변화 혹은 전 세계적인 방사적 사건이 주된 원인일 가능성을 시사한다.
전체적으로 이 논문은 계통수의 시간 정보를 활용한 새로운 통계적 도구를 제공하며, 라인별 다양화 패턴을 정량적으로 검증할 수 있는 기반을 마련한다. 향후 연구에서는 다분기 트리, 복합적인 진화 모델, 그리고 연속적인 시간 스케일을 고려한 확장이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기