다중복제 유전자 트리의 불일치를 활용한 종트리 추정
초록
본 논문은 다중 라벨이 부여된 유전자 트리(멀티-라벨 트리) 사이의 로빈슨‑포울즈 거리(RF)를 일반화하고, 이를 기반으로 멀티‑라벨 트리 집합으로부터 종트리를 추정하는 새로운 방법(MulRF)을 제안한다. 멀티‑라벨 트리 간 RF 거리 계산이 NP‑hard임을 증명하고, 단일 라벨 트리와 멀티‑라벨 트리 간 거리 계산은 효율적으로 수행할 수 있음을 이용해 전체 거리 합을 최소화하는 초트리 문제를 정의한다. 제안된 휴리스틱 알고리즘은 시뮬레이션에서 기존 유전자 트리 패러시미 방법보다 높은 정확도를 보이며, 수백 개의 트리와 수백 종에 대해 빠르게 실행된다.
상세 분석
이 연구는 기존의 종트리 추정 방법이 특정 생물학적 과정(예: 유전자 중복·소실, 깊은 공동 진화, 횡방향 유전자 전달)만을 가정하고 있다는 한계를 지적한다. 저자들은 로빈슨‑포울즈 거리(RF distance)를 멀티‑라벨 트리, 즉 동일 라벨을 가진 다수의 잎을 허용하는 트리 구조에 일반화한다. 이때 두 멀티‑라벨 트리 사이의 최소 편집 거리 계산이 NP‑hard임을 증명함으로써 정확한 거리 산출이 실용적이지 않음을 보여준다. 반면, 멀티‑라벨 트리와 단일 라벨 트리(종트리) 사이의 RF 거리는 각 멀티‑라벨 트리의 라벨을 종 트리의 잎에 매핑하는 방식으로 다항식 시간에 계산할 수 있다. 이를 기반으로 ‘MulRF’라는 초트리 문제를 정의한다. MulRF는 입력된 여러 멀티‑라벨 트리들의 총 RF 거리를 최소화하는 종트리를 찾는 최적화 문제이다. 저자들은 이 문제에 대해 탐색 공간을 크게 줄이는 휴리스틱을 설계했으며, 구체적으로는 초기 종트리를 랜덤 혹은 기존 방법으로 생성한 뒤, 트리 구조를 반복적으로 재배열하면서 거리 감소를 평가한다. 거리 계산 단계에서 각 멀티‑라벨 트리의 라벨을 종 트리의 잎에 일대일 대응시키는 ‘라벨 매핑’ 과정을 효율적으로 수행한다. 실험에서는 유전자 트리 오류, 중복·소실, 횡방향 전달 등 다양한 원인으로 인한 불일치를 시뮬레이션하고, MulRF가 기존 GTP(Gene Tree Parsimony) 기반 방법보다 평균 트리 거리와 토폴로지 정확도에서 우수함을 입증한다. 또한, 100종, 200종 규모의 데이터셋에서도 수십 초 내에 결과를 도출해 실용성을 강조한다.