진화 자동화와 정렬 전사체 기반 파이프라인
초록
본 논문은 전체 서열에 정의된 삽입·삭제(indel) 모델을 다루기 위해 Felsenstein 알고리즘을 확장한다. 확률적 치환 행렬을 가중 유한 상태 변환기(weighted finite‑state transducer)로 일반화하고, 부분 순서 그래프(partial‑order graph)를 이용해 조상 서열의 앙상블 프로파일을 표현한다. 계층적 확률 근사 기법을 도입해 계산량을 감소시켜 실용적인 크기의 다중 정렬 분석이 가능하도록 한다.
상세 분석
이 연구는 전통적인 Felsenstein의 프루닝 알고리즘을 인델 모델 전체에 적용할 수 있도록 변형한 점이 가장 큰 혁신이다. 기존 방법은 고정된 다중 정렬에 조건을 두고 사후 확률을 계산했지만, 저자들은 서열 자체를 확률적 객체로 취급해 정렬과 진화 과정을 동시에 모델링한다. 이를 위해 치환 행렬을 확률 전이 행렬로 보는 대신, 입력 서열을 다른 서열로 변환하는 가중 유한 상태 변환기(FST)를 도입하였다. FST는 삽입·삭제·치환을 각각 별도의 전이와 비용으로 표현하므로, 전체 서열 공간을 탐색하는 동적 계획법과 동일한 구조를 유지하면서도 연산을 그래프 형태로 압축할 수 있다.
또한, 조상 서열의 불확실성을 부분 순서 그래프(POG)로 나타내어, 여러 가능한 정렬 경로를 하나의 데이터 구조에 통합한다. POG는 전통적인 선형 서열보다 풍부한 표현력을 제공해, 동일한 위치에 여러 가능한 염기가 존재하는 경우를 자연스럽게 포착한다. 이러한 프로파일은 하위 노드에서 계산된 전이 확률을 상위 노드로 전달할 때, 전통적인 스칼라 값이 아니라 확률 분포 형태로 전달되므로, 전체 트리 전반에 걸친 베이지안 통합이 가능해진다.
계산 복잡도 문제를 해결하기 위해 저자들은 계층적 확률 근사(hierarchical stochastic approximation) 기법을 제안한다. 구체적으로, 트리의 각 내부 노드에서 가능한 전이 경로를 샘플링하고, 높은 확률을 갖는 경로만을 선택적으로 보존한다. 이 과정은 마코프 체인 몬테 카를로(MCMC)와 유사하지만, 전이 행렬 자체를 샘플링함으로써 전반적인 상태 공간을 크게 축소한다. 결과적으로, 수천 개의 서열을 포함하는 실용적인 규모의 데이터셋에서도 메모리와 시간 요구량을 감당할 수 있게 된다.
이러한 접근법은 기존의 프로그레시브 다중 정렬(pMSA)과는 달리, 정렬 과정에서 발생하는 불확실성을 정량적으로 평가하고, 조상 서열의 확률적 프로파일을 직접적으로 추정한다는 점에서 차별화된다. 또한, 전이 확률을 직접 모델링함으로써 삽입·삭제 길이 분포, 컨텍스트 의존성 등 복잡한 인델 메커니즘을 자연스럽게 포함시킬 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기