시간 균일 출생·소멸 과정에서의 분류군 크기 분포

초록

본 논문은 계통 내 하위 분류군(예: 속)의 개체 수가 출생·소멸 과정에 의해 어떻게 형성되는지를 분석한다. 라인age 발생 간격을 확률적으로 평균화한 결과를 하이퍼지오메트릭 제2종 함수로 표현하고, 1차·2차 근사식을 도출한다. 높은 라인age 발생률과 낮은 발생률 두 극한 상황에서 누적분포와 백분위수를 비교해 근사식의 정확성을 검증한다. 이 모델은 유전계통 공통조상 추정 및 멸종·생존 종 수 예측 등에 활용될 수 있다.

상세 분석

본 연구는 시간 균일(time‑homogeneous) 출생·소멸(birth‑death) 과정을 기본 모델로 삼아, 상위 분류군 안에 존재하는 하위 분류군들의 크기 분포를 수학적으로 규명한다. 먼저, 각 하위 분류군(예: 속)은 독립적인 출생 과정에 의해 생성되며, 생성 시점부터 현재까지의 존재 개체 수는 전통적인 출생·소멸 과정의 확률론적 해를 따른다. 여기서 핵심은 하위 분류군들의 생성 시점이 일정한 평균 λ로 포아송 과정에 의해 발생한다는 가정이다. 따라서 개별 하위 분류군의 크기 분포는 시간 t에 대한 함수 P(n|t)로 표현되지만, 실제 관찰에서는 t가 숨겨진 변수이며, 이를 λ에 따라 지수분포로 평균화해야 한다. 저자는 이 평균화를 수행함으로써 P(n) = ∫₀^∞ P(n|t)·λe^{-λt} dt 형태의 적분식을 얻는다.

이 적분을 전개하면, 일반적인 감마 함수와 베타 함수의 조합으로 나타나지만, 저자는 이를 하이퍼지오메트릭 함수의 제2종(Confluent Hypergeometric U) 형태로 재정리한다. 구체적으로, P(n) = (μ/λ)·U(a,b, c·n)와 같은 형태가 도출되며, 여기서 μ는 개체 수준의 사망률, a·b·c는 출생·소멸 비율 및 라인age 발생률에 대한 파라미터 조합이다. 이 표현은 기존 연구에서 사용된 근사적인 파레토(Pareto) 혹은 로그정규(log‑normal) 분포와는 달리, 정확한 확률 질량 함수를 제공한다.

다음으로 저자는 두 차수까지의 테일러 전개를 이용해 근사식을 제시한다. 1차 근사는 U 함수의 첫 번째 항만을 남겨 선형 형태의 꼬리 분포를 얻으며, 2차 근사는 두 번째 항을 포함해 꼬리의 곡률을 보정한다. 이 근사식들은 파라미터 공간(λ, μ, 출생률 β)에 따라 매우 높은 정확도를 보이며, 특히 λ가 매우 크거나 작을 때도 오차가 5% 이하로 유지된다.

극한 경우 분석에서는 (1) λ≫μ,β 즉 라인age 발생이 매우 빈번한 경우와 (2) λ≪μ,β 즉 발생이 드문 경우를 각각 다룬다. 첫 번째 경우에는 하이퍼지오메트릭 함수가 급격히 감소하는 형태를 보여, 실제 데이터에서 흔히 관찰되는 “많은 소수, 적은 다수”의 스케일프리(power‑law) 현상을 재현한다. 두 번째 경우에는 지수적 감소가 지배적이며, 이는 멸종 위험이 높은 작은 군집에 해당한다. 두 경우 모두 누적분포 함수(CDF)와 백분위수(quantile)를 수치적으로 계산해 근사식과 비교했을 때, 0.1~0.9 백분위 구간에서 평균 절대 오차가 0.02 이하임을 보고한다.

마지막으로 저자는 이 모델이 유전계통(coalescent) 분석, 화석 기록 기반 종 다양성 추정, 그리고 보전 생물학에서의 위험군 식별 등에 직접 적용될 수 있음을 제시한다. 특히, 라인age 발생률 λ를 화석층의 형성 속도나 지리적 분리율과 연결시키면, 과거 멸종 사건을 역추정하는 데 유용한 통계적 도구가 된다.