연결 정렬에서 최대우도법은 종계통수 재구성을 오도할 수 있다

다중종 공통조상(coalescent) 모델과 일반적인 자리 치환 모델을 동시에 고려하지 않은 채, 여러 유전자 서열을 하나로 연결(concatenation)한 뒤 동일한 확률 모델을 가정하고 최대우도(ML) 추정을 하면, 종계통수에 대해 통계적으로 일관되지 않음이 증명된다. 특히 변이율이 낮은 경우, 잘못된 트리 형태가 기대 우도와 파시모니 점수 모두에서 우세하게 되며, 유전자 수가 충분히 많아질수록 올바른 종계통수가 선택될 확률은 임의의 작은…

저자: Sebastien Roch, Mike Steel

연결 정렬에서 최대우도법은 종계통수 재구성을 오도할 수 있다
본 논문은 유전체 데이터를 이용해 종계통수를 재구성할 때 마주치는 두 가지 주요 난관—(1) 각 유전자의 진화 역사를 나타내는 유전자 트리가 종계통수와 다를 수 있다는 점(불완전 계통분리, ILS)과 (2) 각 유전자에 대한 정렬된 서열이 유전자 트리 토폴로지를 완벽히 반영하지 못한다는 점—을 동시에 고려하지 않은 경우 발생하는 통계적 오류를 이론적으로 분석한다. 1. **문제 설정 및 배경** - 현대 고속 시퀀싱 기술은 수천 개의 유전자를 동시에 확보할 수 있게 되었으며, 이에 따라 “연결(concatenation)” 방식이 널리 사용된다. 이는 모든 유전자의 서열을 하나의 긴 정렬로 합친 뒤, 전통적인 최대우도(ML) 혹은 거리 기반 방법을 적용하는 단순한 절차이다. - 그러나 실제 진화 과정은 두 단계로 이루어진다. 먼저, 종계통수(T)와 그 가지 길이(L)가 MSC 과정을 통해 무작위 유전자 트리(G)를 생성한다. 둘째, 각 G 위에서 대칭 r‑state 자리 치환 모델(변이율 θ)으로 서열이 진화한다. 이 복합 과정을 무시하고 “모든 부위가 동일한 고정 트리 위에서 i.i.d.”라고 가정하면 모델이 잘못 지정(mis‑specified)된 것이 된다. 2. **주요 정리(Theorem 1)** - 변이율 θ가 충분히 작고, 특정 종계통수 형태(예: 6개의 잎을 가진 꼬리형 트리)와 짧은 가지 길이 L을 선택하면, 유전자 수 g가 커질수록 ML이 올바른 종계통수와 동일한 토폴로지를 선택할 확률 P(T,g)은 任意의 작은 δ보다 작아진다. 즉, g→∞일 때 P(T,g)→0이며, ML 추정은 일관성을 상실한다. 3. **증명 전략** - **이상 영역(anomaly zone) 활용**: MSC 하에서 가장 빈번히 관찰되는 유전자 트리와 실제 종계통수가 다를 수 있음을 이용한다. 특히 6개의 잎을 가진 경우, Z형(꼬리형) 트리가 Y형(대칭형)보다 더 높은 발생 확률을 가진다. - **우도와 파시모니 점수 연결**: 변이율이 낮을 때, 자리 치환 모델의 로그우도는 파시모니 점수와 거의 비례한다(식 7, 8). 파시모니 점수는 부위가 최소 몇 번 변이해야 하는지를 나타내는 조합적 척도이며, 계산이 용이하다. - **Ewens 샘플링 공식 적용**: 무한 알레일 모델에서 θ가 작은 경우, 특정 알레일 빈도 분포의 확률을 Ewens 공식으로 구한다. 이를 통해 6개의 잎에 대해 두 가지 트리 형태(Y와 Z) 각각에서 발생 가능한 2‑클레이드와 3‑클레이드의 기대 빈도를 계산한다. - **기대 파시모니 점수 차이**: 위 계산을 종합하면, Z형 트리의 기대 파시모니 점수가 Y형보다 1/60·θ만큼 작다(식 5). 변이율이 작을수록 이 차이는 우도 차이로 직접 전이된다. - **데이터 샘플링과 확률적 경계**: 실제 정렬에서 상수 부위(N₀)가 충분히 많고, 전체 부위 수(g·ℓ)가 크면 파시모니 기반 근사치가 실제 ML 값에 매우 가깝다. 따라서 기대 우도 차이가 실제 ML 선택에 반영되어, 잘못된 Z형 트리가 최적해가 된다. 4. **실제 적용과 의미** - 이론적 결과는 Kubatko와 Degnan(2007)의 시뮬레이션에서 관찰된 “연결‑ML이 종계통수를 오도한다”는 현상을 정량적으로 설명한다. - 또한, DeGiorgio‑Degnan(2010)과 Chifman‑Kubatko(2014)의 연구가 제시한 MSC‑전용 방법(예: *BEAST, SVDquartets)이 일관성을 보장하는 반면, 단순 연결‑ML은 특정 파라미터 영역에서 완전히 실패함을 강조한다. - 실무적으로는 변이율이 낮고, 종분화 간격이 짧아 ILS가 심한 경우(‘anomaly zone’)에 연결‑ML을 사용하면 높은 신뢰도에도 불구하고 잘못된 트리를 얻을 위험이 크다. 대신, 유전자 트리를 개별적으로 추정하고 이를 종합하는 방법(예: ASTRAL, MP‑EST)이나 직접 MSC‑모델을 이용한 베이지안 추정이 권장된다. 5. **결론** - 최대우도 추정은 모델이 정확히 지정될 때 일관성을 갖지만, MSC와 자리 치환 과정을 동시에 고려하지 않은 채 연결된 서열에 적용하면, 특히 변이율이 낮고 종분화가 급격히 일어나는 경우에 일관성을 상실한다. - 논문은 이 불일치를 수학적으로 엄밀히 증명함으로써, 진화 생물학 및 계통학 분야에서 “연결‑ML” 사용에 대한 경고와 더 정교한 통계 모델의 필요성을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기