상호 최선 히트는 직교성의 충분조건이 아니다
초록
본 논문은 흔히 사용되는 상호 최선 히트(Reciprocal Best Hit, RBH) 기준이 직교(orthology)를 판정하는 충분조건이 될 수 없음을 논리적으로 증명한다. 저자는 그래프 이론과 집합론을 활용해 RBH 관계가 전이성을 갖지 않으며, 서로 다른 종 사이에 존재하는 다중 복제와 유전적 손실 상황에서 RBH가 실제 직교 관계와 불일치함을 보인다. 결과적으로 RBH는 충분조건도 필요조건도 아니며, 무감독(unsupervised) 직교 탐지 알고리즘의 논리적 기반을 재검토할 필요성을 강조한다.
상세 분석
논문은 먼저 직교성의 정의를 ‘공통 조상으로부터 분기된 유전자를 서로 다른 종에서 찾는 것’으로 명시하고, 이를 수학적으로는 ‘각 종의 유전자 집합 사이에 일대일 대응 관계가 존재한다’는 조건으로 표현한다. 상호 최선 히트(RBH)는 두 종 A와 B 사이에서 A의 가장 높은 점수를 받은 B의 유전자가 B에서도 A에 대해 가장 높은 점수를 받는 경우를 의미한다. 저자는 RBH를 그래프의 양방향 가장 짧은 경로(boomerang)로 모델링하고, 이 그래프가 반드시 매칭(완전 일대일 대응)을 형성하지 않음을 증명한다. 핵심 논증은 세 가지 경우로 나뉜다. 첫째, 유전자 중복(duplication) 후 한 복제본이 다른 종에만 보존되는 경우, RBH는 중복된 두 유전자를 각각 다른 종의 단일 유전자와 매칭시켜 일대일 대응을 깨뜨린다. 둘째, 유전자 손실(loss)이나 급격한 진화로 인해 가장 높은 점수를 받은 파트너가 실제 직교 관계가 아닌 경우가 발생한다. 셋째, 다중 종을 포함한 네트워크에서 RBH 관계는 전이성을 갖지 않으며, A‑B와 B‑C가 각각 RBH라 하더라도 A‑C가 RBH가 될 필요가 없다는 점을 집합론적 모순으로 제시한다. 이러한 논증을 통해 저자는 RBH가 ‘충분조건’이 될 수 없으며, 실제 직교성을 보장하려면 추가적인 진화적 정보(예: 계통수, 시냅틱 거리, 기능적 보존)와 통계적 검증이 필요함을 강조한다. 또한, 현재 널리 사용되는 OrthoMCL, InParanoid, OMA 등은 RBH를 초기 필터로 사용하지만, 그 이후 단계에서 복잡한 클러스터링이나 스코어링을 도입함으로써 RBH의 논리적 한계를 보완하고 있음을 지적한다. 논문은 마지막으로 RBH 기반 무감독 알고리즘의 설계 원칙을 재검토하고, ‘RBH는 좋은 시작점이지만, 절대적인 직교 판정 기준이 될 수 없다’는 결론을 도출한다.
댓글 및 학술 토론
Loading comments...
의견 남기기