가능도 없는 방법으로 진화계통수 사후분포 추정
초록
본 논문은 시퀀스 진화 모델의 가능도 계산을 필요로 하지 않는 새로운 베이지안 추정 기법인 Phyloformer 2를 제안한다. evoPF라는 효율적인 인코더와 BayesNJ라는 트리 병합 기반 확률 모델을 결합해, 입력된 다중 서열 정렬(MSA)로부터 전체 계통수 사후분포를 직접 학습한다. 실험 결과, 가능도가 계산 가능한 모델에서도 기존 가능도 기반 방법보다 정확도가 높으며, 가능도가 비정형인 복잡한 모델에서는 오류가 23배 낮아진다. 또한 학습 후 추론 속도가 10100배 가량 빨라 실시간 분석에 적합하다.
상세 분석
Phyloformer 2는 두 핵심 모듈, evoPF와 BayesNJ로 구성된다. evoPF는 AlphaFold 2의 EvoFormer를 변형한 구조로, MSA 스택과 페어 스택을 병렬로 운영한다. MSA 스택에서는 열‑단위와 행‑단위 게이트형 자기주의(attention)를 교대로 적용해 각 서열 내부와 서열 간 정보를 교환하고, 페어 스택에서는 모든 서열 쌍에 대해 자기주의를 수행한다. 두 스택은 외적 평균과 선형 바이어스를 통해 상호 보완적으로 업데이트되며, 12개의 블록을 거친 뒤 각 서열에 대한 임베딩을 평균해 최종 ψ(x)를 얻는다. 이 ψ(x)는 각 서열과 서열 쌍을 고차원 벡터로 요약한 것으로, 이후 BayesNJ에 입력된다.
BayesNJ는 트리 병합 과정을 확률적으로 모델링한다. 트리의 형성은 N개의 잎을 차례로 두 개씩 병합해 내부 노드를 생성하는 일련의 merge 단계(m(k))로 표현된다. 각 단계에서 가능한 병합 후보 C(k) 중 하나를 선택할 확률은 ψ(x)로부터 파라미터화된 소프트맥스 함수로 정의되며, 선택된 병합에 대한 가지 길이 ℓ(k)는 베타·감마 분포 형태의 파라미터로 추정된다. 이렇게 정의된 qψ(θ|x)는 완전한 트리 구조와 모든 가지 길이의 사후분포를 제공한다. 학습은 시뮬레이션된 (x,θ) 쌍을 이용해 평균 KL 발산을 최소화하는 방식으로 진행되며, 가능도 계산이 필요 없으므로 복잡한 진화 모델(예: 부정합, 선택 압력, 이질적 변이율 등)에도 적용 가능하다.
실험에서는 1) 전통적인 GTR·Γ 모델 등 가능도가 계산 가능한 경우, 2) 복잡한 비정형 모델에서 두 가지 시나리오를 검증한다. 가능도 기반 방법(예: IQ‑TREE, RAxML)과 기존 NPE 기반 방법(예: Phyloformer, variational Bayes)과 비교했을 때, Phyloformer 2는 토폴로지 정확도와 사후분포 캘리브레이션 측면에서 우수했다. 특히 복잡 모델에서는 토폴로지 오류가 2~3배 감소했으며, 추론 시간은 GPU 환경에서 수초 수준으로 크게 단축되었다.
이 논문의 주요 기여는 (1) 가능도 없이도 트리 사후분포를 직접 학습할 수 있는 새로운 파라미터화 방식을 제시한 점, (2) EvoFormer 기반의 효율적인 서열‑쌍 인코더를 설계해 대규모 MSA를 메모리 제한 없이 처리할 수 있게 한 점, (3) 베이지안 추정의 amortized 특성을 활용해 한 번 학습된 모델로 다양한 데이터셋에 즉시 적용할 수 있게 한 점이다. 한계로는 시뮬레이션 데이터에 의존하는 학습 과정과, 실제 생물학적 데이터에서 모델 불일치가 발생할 경우 성능 저하 가능성이 있다. 향후 실제 유전체 데이터에 대한 검증과, 모델 불확실성을 반영한 하이퍼파라미터 튜닝이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기