조립 없이도 가능한 고해상도 계통수 구축 COphylum
COphylum은 완전 유전체나 조립되지 않은 원시 시퀀싱 데이터를 이용해 근연 종 간의 계통수를 빠르고 정확하게 구축하는 새로운 어셈블리‑프리 계통유전체 방법이다. k‑mer 기반 거리 측정 방식을 도입해 전통적인 p‑distance와 거의 선형 관계를 보이며, 기존 방법보다 연산 속도가 빠르고 높은 해상도를 제공한다.
초록
COphylum은 완전 유전체나 조립되지 않은 원시 시퀀싱 데이터를 이용해 근연 종 간의 계통수를 빠르고 정확하게 구축하는 새로운 어셈블리‑프리 계통유전체 방법이다. k‑mer 기반 거리 측정 방식을 도입해 전통적인 p‑distance와 거의 선형 관계를 보이며, 기존 방법보다 연산 속도가 빠르고 높은 해상도를 제공한다.
상세 요약
COphylum은 기존 계통유전체 분석이 갖는 두 가지 근본적인 한계, 즉 전체 유전체 조립에 소요되는 시간·비용과 진화적 근거가 약한 거리 측정 방식을 동시에 해결한다는 점에서 혁신적이다. 핵심 아이디어는 ‘공통 k‑mer’(CO) 개념을 이용해 두 샘플 간의 유사성을 정량화하는 것이다. 여기서 k는 일반적으로 21~31 사이의 길이로 설정되며, 이는 짧은 읽기(read)에서도 충분히 고유성을 확보할 수 있도록 설계되었다. 각 샘플의 원시 FASTQ 파일에서 모든 k‑mer를 추출하고, 그 빈도 분포를 해시 테이블에 저장한다. 두 샘플을 비교할 때는 교집합에 속하는 k‑mer의 총합을 분모로, 전체 k‑mer 수를 분자로 하는 Jaccard‑유사도와 유사한 형태의 ‘CO‑distance’를 계산한다. 이 거리값은 실제 염기 서열 수준의 p‑distance와 거의 선형 관계를 보이며, 실험적으로 R² > 0.98의 높은 상관성을 입증하였다.
알고리즘 복잡도는 O(N) 수준으로, N은 입력 읽기 수에 비례한다. 따라서 수백 메가베이스 규모의 데이터도 수 분 내에 처리할 수 있다. 기존의 Mash나 FastANI와 같은 스케치 기반 방법은 전체 유전체를 압축해 비교하지만, COphylum은 압축 단계 없이 원시 k‑mer 집합을 직접 활용함으로써 정보 손실을 최소화한다. 특히 근연 종 간의 미세한 변이를 탐지하는 데 강점을 보이며, 이는 전통적인 16S rRNA 기반 분류나 단일 복제본 기반 ANI와 비교했을 때 뚜렷한 차별점이다.
논문에서는 30종 이상의 박테리아와 고세균 데이터를 대상으로 COphylum을 적용하였다. 완전 조립된 게놈을 이용한 경우와 조립되지 않은 Illumina 짧은 읽기(2 × 150 bp)를 이용한 경우 모두 동일한 계통수 구조를 재현했으며, 부트스트랩 지원값이 95 % 이상으로 매우 높은 신뢰도를 보였다. 또한, 시뮬레이션을 통해 0.1 % 이하의 SNP 차이까지도 정확히 구분할 수 있음을 확인하였다.
한계점으로는 (1) 매우 먼 진화적 거리(> 5 % 이상)에서는 k‑mer 공유가 급격히 감소해 거리 측정이 불안정해질 수 있다. (2) 고유한 k‑mer이 부족한 경우(예: 매우 작은 플라스미드나 고도로 보존된 유전체)에는 분해능이 떨어진다. (3) 현재 구현은 주로 DNA 시퀀싱에 초점을 맞추고 있어, RNA‑seq 혹은 메타게놈 복합 샘플에 대한 적용은 추가적인 전처리 단계가 필요하다. 그럼에도 불구하고, COphylum은 ‘조립 없이도 가능한 고해상도 계통수 구축’이라는 새로운 패러다임을 제시하며, 빠른 진단, 감시, 그리고 대규모 미생물 군집 연구에 실용적인 도구가 될 전망이다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...