단일 계통수 혼합 모델이 다른 위상 트리를 완벽히 모방한다
초록
본 논문은 하나의 계통수 위에서 정의된 혼합 모델이, 전혀 다른 위상의 계통수와 동일한 서열 분포를 생성할 수 있음을 증명한다. 즉, 두 유전자의 진화가 같은 토폴로지를 갖지만 서로 다른 가지 길이를 가질 때, 이 두 데이터를 결합하면 전혀 다른 토폴로지를 가진 트리와도 완벽히 일치한다는 뜻이다. 이는 혼합 모델 데이터와 단일 트리 데이터 사이의 구분이 이론적으로 불가능할 수 있음을 시사한다.
상세 분석
이 연구는 계통수 재구성에서 흔히 가정되는 “충분히 많은 데이터와 올바른 방법을 사용하면 혼합 모델 데이터와 단일 트리 데이터는 구별 가능하다”는 전제를 반증한다. 저자들은 먼저 혼합 모델을 수학적으로 정의한다. 여기서 혼합은 동일한 토폴로지를 공유하지만 서로 다른 진화 매개변수(예: 가지 길이, 치환율)를 갖는 여러 서열 집합을 가중 평균하는 형태이다. 그런 다음, 두 개의 서로 다른 가중치 조합을 선택해 하나의 토폴로지에 대해 두 개의 서열 분포를 만든다. 핵심은 이 두 분포를 적절히 조정하면, 결과적인 혼합 분포가 완전히 다른 토폴로지를 가진 단일 모델의 분포와 일치한다는 점이다. 이를 증명하기 위해 저자들은 선형대수와 다항식 이론을 활용해 확률분포 공간에서의 차원을 분석한다. 특히, 4개의 종을 갖는 경우에 대해 구체적인 예시를 제시하며, 두 개의 서로 다른 가지 길이 조합이 동일한 패턴을 만들어내는 “불변량”을 찾아낸다. 이러한 불변량은 기존의 거리 기반 혹은 최대우도 기반 재구성 방법이 인식하지 못하는 구조적 함정이다. 결과적으로, 혼합 모델이 생성한 데이터는 통계적으로는 단일 트리 데이터와 구별할 수 없는 경우가 존재한다. 이는 특히 유전체 전반에 걸친 다중 유전자 데이터나, 부위별 진화 속도가 다른 경우에 흔히 발생한다. 따라서, 기존의 “혼합 모델은 더 복잡하지만, 충분히 큰 샘플이면 정확히 복원 가능하다”는 주장에 근본적인 제한이 있음을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기