분자 발산 시계 추정의 새로운 합계 제곱 패널티
초록
이 논문은 진화 속도 변동을 로그 브라운 운동 모델로 가정하고, 가중 최소제곱 패널티를 이용해 분자 발산 시간을 추정한다. 공유 조상에 의한 상관성을 고려한 여러 형태의 패널티를 제시하고, 시간 스케일에 따른 합계 제곱의 변화를 보정하는 스케일 파라미터를 도입한다. 화석 교정점의 불확실성을 포함한 총합계 제곱을 최소화함으로써, 플라시덴 포유류의 근원 연령을 기존 125 Myr에서 약 94 Myr로 낮추지만, 다중 교정점과 상대적 분자 시간 때문에 잔차가 크게 증가한다. 부트스트랩된 화석 데이터는 근원 연령 신뢰구간을 70~130 Myr로 넓히며, 보다 많은 고품질 화석 교정과 개선된 진화 속도 모델이 필요함을 강조한다.
상세 분석
본 연구는 분자계통학에서 시간 추정의 핵심 문제인 ‘속도 변동’에 대한 통계적 모델링을 심도 있게 다룬다. 기존에 널리 사용되던 일정 속도 가정(분자 시계)이나 단순한 베이즈 프리오어는 실제 진화 과정에서 발생하는 비균일한 변화를 충분히 포착하지 못한다는 점을 지적하고, 로그 브라운 운동(log‑Brownian motion) 모델을 도입한다. 로그 변환을 통해 진화 속도가 음수가 되는 비현실적인 상황을 방지하면서, 연속적인 확률 과정으로서 속도의 변동성을 자연스럽게 설명한다.
가중 최소제곱(Weighted Least Squares, WLS) 프레임워크 안에서 이 모델을 구현하기 위해 저자는 ‘합계 제곱 패널티(sum of squares penalty)’를 정의한다. 핵심은 관측된 유전자 거리와 모델이 예측한 거리 사이의 차이를 제곱하고, 각 차이에 대한 가중치를 부여해 최소화하는 것이다. 여기서 가중치는 브라운 운동의 공분산 구조를 반영한다. 즉, 공통 조상을 공유하는 두 분기선은 독립적인 오차가 아니라 상관된 오차를 갖게 되며, 이를 공분산 행렬 Σ로 표현한다. Σ는 시간 간격에 비례하는 변동성을 갖는 로그 브라운 운동의 특성에 따라 구성되며, 역행렬 Σ⁻¹이 바로 WLS의 가중치 행렬이 된다.
하지만 Σ⁻¹을 직접 계산하는 것은 계산량이 급격히 증가한다는 실용적 문제를 안고 있다. 이를 해결하기 위해 저자는 ‘합계 제곱 패널티의 다양한 형태’를 제시한다. 첫 번째 형태는 전통적인 독립 오차 가정 하의 단순 가중치(각 분기선 길이에 역비례)이며, 두 번째 형태는 공통 조상에 의해 발생하는 상관성을 근사적으로 반영한 ‘블록 대각화’ 접근법이다. 세 번째 형태는 ‘스케일 파라미터(λ)’를 도입해 전체 시간 스케일에 따라 합계 제곱이 선형적으로 변하는 현상을 보정한다. λ는 최적화 과정에서 동시에 추정되며, 실제 시간 단위가 변해도 패널티 값이 비교 가능하도록 만든다.
화석 교정점의 불확실성도 동일한 프레임워크에 통합된다. 화석 연대는 보통 평균값과 표준오차(또는 신뢰구간)로 제공되는데, 이를 ‘관측 오차’로 간주하고 공분산 행렬에 추가한다. 이렇게 하면 화석 교정의 불확실성과 브라운 운동에 의한 내재적 변동성이 하나의 합계 제곱 함수 안에 합쳐져, 전체 최적화가 한 번에 수행된다.
실제 데이터 적용에서는 플라시덴 포유류(placental mammals) 유전체 데이터를 사용한다. 기존 연구에서 제시된 125 Myr 정도의 근원 연령이, 본 방법으로는 94 Myr 정도로 크게 낮아진다. 그러나 다중 화석 교정점(예: 라우라, 마이아 등)과 상대적 분자 시간(노드 간 비율)들을 동시에 포함하면, 잔차 제곱합이 기대값보다 현저히 커진다. 이는 모델이 실제 진화 속도 변동을 충분히 설명하지 못하거나, 교정점 자체에 과도한 제약이 가해졌음을 의미한다.
이를 보완하기 위해 저자는 화석 데이터를 부트스트랩(bootstrap)한다. 부트스트랩 샘플마다 최적화된 근원 연령을 구하고, 전체 분포를 통해 95 % 신뢰구간을 추정한다. 결과는 70 ~ 130 Myr라는 매우 넓은 구간으로, 현재 화석 기록과 분자 데이터만으로는 정확한 연대를 제한하기 어렵다는 결론을 뒷받침한다.
결론적으로, 로그 브라운 운동 기반의 가중 최소제곱 패널티는 기존의 단순 시계 모델보다 더 현실적인 속도 변동을 반영한다. 그러나 실제 적용 시에는 (1) 공분산 행렬의 효율적 근사, (2) 스케일 파라미터의 적절한 추정, (3) 화석 교정점의 수와 품질, (4) 모델 자체의 복잡성(예: 급격한 속도 변화, 선택 압력) 등을 동시에 고려해야 한다는 점을 강조한다. 향후 연구는 이러한 요소들을 통합한 하이브리드 모델과, 대규모 유전체 데이터에 대한 고속 알고리즘 개발이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기