AFLP 마커 진화와 계통추정을 위한 삽입 삭제 모델
초록
본 논문은 AFLP 마커의 진화 과정을 서열 치환뿐 아니라 삽입·삭제(indel) 과정을 포함하도록 확장한 Sub‑ID 모델을 제안한다. 베이지안 MCMC 프레임워크를 이용해 마커의 동질성 여부와 계통수, 전장 유전체 수준의 indel‑대‑substitution 비율을 동시에 추정한다. 시더스(sedges) 데이터를 이용한 사례연구에서 indel을 고려했을 때 계통추정 결과가 유의미하게 달라짐을 확인하였다.
상세 분석
Sub‑ID 모델은 기존 AFLP 진화 모델이 전제로 삼았던 “마커는 서로 독립이며 동질적이다”는 가정을 완화한다. 구체적으로, 각 마커를 유전체 상의 특정 위치에 매핑하고, 그 위치에서 일어나는 핵산 치환과 삽입·삭제를 연속적인 마코프 과정으로 기술한다. 치환은 Jukes‑Cantor(JC) 모델을 기본으로 하지만, 모델 자체는 다른 치환 모델로 교체가 가능하도록 설계되었다. 삽입·삭제는 길이‑분포를 갖는 파라미터화된 과정으로, 삽입과 삭제가 동시에 발생할 확률을 별도로 정의함으로써 실제 유전체에서 관찰되는 indel 패턴을 보다 정밀하게 모사한다.
베이지안 추론을 위해 저자들은 맞춤형 MCMC 알고리즘을 구현하였다. 주요 단계는 (1) 마커의 동질성 여부를 나타내는 이진 변수 집합을 샘플링하고, (2) 계통수 토폴로지를 제안·수정하며, (3) 치환 및 indel 비율 파라미터를 업데이트하는 것이다. 특히, 동질성 변수는 마커가 동일한 유전체 구간에서 유래했는지를 판단하는데, 이는 마커가 동일한 절편 길이와 동일한 제한 효소 절단 부위를 공유하더라도 실제로는 서로 다른 진화 경로를 가질 수 있음을 반영한다.
시뮬레이션 결과는 두 가지 중요한 점을 강조한다. 첫째, indel 비율을 과소추정하면 계통수의 분기 길이가 왜곡되어 잘못된 친연 관계를 도출할 위험이 있다. 둘째, Sub‑ID 모델은 동질성에 대한 불확실성을 정량화함으로써, 전통적인 방법이 “모든 마커는 동질적이다”라고 가정했을 때 발생하는 과신을 완화한다.
실제 데이터 적용에서는 북미에 서식하는 sedge 종들의 AFLP 마커 120개를 분석하였다. indel 비율을 추정한 결과, 전체 유전체에서 치환 대비 indel이 약 0.35배 정도 더 빈번히 일어나는 것으로 나타났으며, 이는 식물 유전체에서 흔히 보고되는 높은 indel 활성을 반영한다. 또한, indel을 포함한 Sub‑ID 모델을 사용했을 때와 전통적인 독립·동질 모델을 사용했을 때의 토폴로지 차이를 비교했을 때, 몇몇 주요 분기점에서 지지도가 현저히 변했으며, 특히 종간 관계가 불분명했던 그룹에서 Sub‑ID 모델이 더 일관된 지지를 제공하였다.
민감도 분석에서는 사전 분포와 JC 모델 가정이 결과에 미치는 영향을 평가하였다. 다양한 사전 설정과 GTR 등 복잡한 치환 모델을 적용했음에도 불구하고, 주요 토폴로지는 크게 변하지 않았으며, 이는 Sub‑ID 모델이 데이터에 의해 강하게 구속된다는 점을 시사한다.
결론적으로, 이 연구는 AFLP 마커 분석에 indel 과정을 통합함으로써 보다 현실적인 진화 모델을 제공하고, 베이지안 MCMC를 통한 동시 추정이 계통학적 해석의 신뢰성을 높일 수 있음을 입증한다. 향후에는 다른 마커 시스템(예: SNP, microsatellite)이나 전장 시퀀싱 데이터에도 동일한 프레임워크를 확장할 가능성이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기