서열 정렬과 상호 정보량을 이용한 새로운 계통수 거리 측정법

초록

본 논문은 전통적인 정렬 기반 거리 측정법의 한계를 극복하고자, 전역 쌍별 정렬에서 얻은 상호 정보량(MI)을 이용해 객관적이고 모델 독립적인 계통수 거리 지표를 제안한다. 압축 기반 정규화 거리(NCD)의 비가법성 문제를 보완하는 수정안을 제시하고, 동물 미토콘드리아 DNA 데이터를 이용한 대규모 실험에서 김우아(Kimura) 거리와 로그‑det 거리보다 일관되게 우수한 성능을 확인한다. 또한 제안 방법은 정렬 알고리즘의 품질 평가에도 활용될 수 있다.

상세 요약

이 연구는 기존 서열 정렬 알고리즘이 휴리스틱 점수 체계를 사용해 객관적인 거리 척도로 활용되기 어렵다는 점을 출발점으로 삼는다. 전통적으로는 p‑거리, 로그‑det 거리, 혹은 단순한 진화 모델을 가정한 방법들이 사용되어 왔지만, 이러한 접근법은 모델 의존성과 파라미터 추정 오류에 취약하다. 정보 이론, 특히 상호 정보량(MI)은 모델에 독립적인 유사도 척도로서 잠재력을 지니며, 압축 프로그램을 이용해 문자열을 연결하고 압축함으로써 근사값을 얻을 수 있다. 이때 등장하는 정규화 압축 거리(NCD)는 직관적으로는 좋은 거리처럼 보이지만, 가법성이 결여돼 계통수 재구성에 최적의 메트릭이 아니다.

논문은 두 가지 이론적 틀을 제시한다. 첫째는 알고리즘적(콜모고로프) 정보 이론에 기반한 접근으로, 정렬된 두 서열을 연결(concatenation)하고 압축한 결과를 이용해 MI를 추정한다. 둘째는 전통적인 샤논 엔트로피를 이용해 각 서열의 단일 문자 확률분포와 쌍별 문자 확률분포를 계산함으로써 MI를 구하는 방법이다. 두 방법 모두 전역 쌍별 정렬을 전제하지만, 구현은 매우 간단하고 기존 정렬 프로그램을 그대로 활용할 수 있다.

핵심적인 기여는 NCD의 비가법성을 보완하는 “정규화 가법 거리”(normalized additive distance)이다. 이는 NCD를 로그 변환하고, 두 서열의 자체 압축 길이를 보정함으로써 거리의 가법성을 회복한다. 이렇게 얻어진 거리 함수는 삼중항(quartet) 테스트에서 전통적인 김우아 거리와 로그‑det 거리보다 높은 정확도를 보였다. 특히 동물계 전체에 걸친 1,000여 종의 미토콘드리아 DNA 데이터를 이용한 10,000여 개의 무작위 쿼터트 실험에서, 제안된 MI 기반 거리들은 평균 트리 재구성 오류가 15 % 이상 감소하였다.

또한, 단순히 각 염기의 샤논 엔트로피만을 이용한 근사 거리(‘single‑letter MI’)도 기존 소프트웨어에 손쉽게 통합될 수 있으며, 전체 실험에서 거의 동일한 성능 향상을 나타냈다. 이는 복잡한 압축 알고리즘 없이도 충분히 유용한 정보를 추출할 수 있음을 시사한다.

마지막으로, 제안된 MI 기반 거리 측정법은 정렬 알고리즘 자체의 품질을 평가하는 도구로도 활용 가능하다. 특정 정렬 결과에 대한 MI 값을 계산함으로써, 해당 정렬이 통계적으로 의미 있는지, 혹은 다른 정렬 방법에 비해 얼마나 정보를 보존하는지 정량화할 수 있다. 이는 정렬 알고리즘 개발 및 선택 과정에서 새로운 객관적 기준을 제공한다.

전반적으로 이 논문은 정보 이론을 계통학에 적용함으로써, 모델 의존성을 최소화하고, 기존 거리 측정법보다 더 신뢰할 수 있는 계통수 재구성을 가능하게 하는 실용적인 프레임워크를 제시한다.

초록

상세 요약

📜 논문 원문 (영문)