통계적 계통학을 이용한 삽입 삭제 이력 정확한 재구성

초록

본 논문은 삽입·삭제(indel) 사건의 진화 역사를 재구성하기 위해, 전통적인 서열 정렬(MSA) 대신 확률적 자동이론을 적용한 새로운 통계적 방법을 제안한다. 시뮬레이션 기반 벤치마크에서 제안된 알고리즘은 기존 MSA 도구보다 편향이 적은 가장 가능성 높은 진화 이력을 제공하며, 정렬을 명시적으로 제외하고도 추론이 가능함을 보였다.

상세 분석

이 연구는 MSA를 “indel 역사”의 부분 요약으로 보는 관점에서 출발한다. 기존의 유한 치환 모델(예: Dayhoff 행렬)과 Felsenstein의 가지치기 알고리즘은 서열 길이가 고정된 경우에만 적용 가능했지만, 자동이론(automata theory)을 도입함으로써 가변 길이 서열에 대한 확률적 모델링이 가능해졌다. 논문은 두 가지 핵심 기법을 제시한다. 첫째, 확률적 자동을 이용해 모든 가능한 삽입·삭제 경로를 상태 전이망으로 표현하고, 이를 통해 각 경로의 사후 확률을 계산한다. 둘째, 마코프 체인 몬테카를로(MCMC) 샘플링을 활용해 가장 가능성 높은 히스토리 집합을 추출하고, 이 집합을 기반으로 “마진화된” MSA를 얻는다. 이렇게 얻어진 히스토리는 전통적인 최적화 기반 정렬(예: Clustal, MUSCLE)에서 도출된 정렬보다 실제 진화 과정을 더 잘 반영한다는 것이 실험 결과로 입증된다.

시뮬레이션에서는 포유류의 진화 파라미터와 여러 트리 구조를 사용했으며, 평가 지표는 재구성된 indel 위치와 실제 삽입·삭제 사건 사이의 일치도, 그리고 전체 서열 길이 변동성에 대한 편향 정도였다. 제안된 알고리즘은 특히 긴 삽입·삭제 구간이 존재하는 경우, 기존 방법이 과도하게 삽입을 과소평가하거나 삭제를 과대평가하는 문제를 크게 완화한다. 또한, “정렬‑프리” 모드에서는 MSA를 완전히 합산(summed out)함으로써 정렬 오류가 추론에 미치는 영향을 원천 차단한다. 이는 특히 구조적 변이가 심한 단백질 코딩 영역이나 비코딩 DNA 구간에서 유용하다.

기술적 난점으로는 상태 공간의 폭발적 증가가 있다. 이를 해결하기 위해 논문은 동적 프로그래밍 기반의 전방-후방 알고리즘을 변형해, 가능한 경로를 효율적으로 제한하고, 샘플링 단계에서 적응적 중요도 가중치를 적용한다. 또한, 병렬화와 GPU 가속을 활용해 계산 시간을 실용적인 수준으로 낮추었다.

이 연구는 indel 사건을 명시적으로 모델링함으로써, 진화적 사건의 시간적 순서와 규모를 정량화할 수 있는 새로운 프레임워크를 제공한다. 향후에는 이 방법을 이용해 인간 단백질 코딩 유전자의 진화 역사를 상세히 재구성하고, 기능적 도메인 변이와 질병 연관성을 탐색하는 데 적용할 계획이다.