재조합이 포함된 중립 Wright‑Fisher 모델에서 염색체 소실 확률의 근사와 경계

재조합이 포함된 중립 Wright‑Fisher 모델에서 염색체 소실 확률의 근사와 경계
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 중립 Wright‑Fisher 모델에 재조합을 도입했을 때, 특정 염색체가 k 세대 이후 완전히 사라질 확률 NA(k,r,2N)를 근사식으로 제시한다. 정확한 계산이 복잡해지므로, 재조합이 전혀 일어나지 않은 경우의 확률 L(k,0,2N)과 재조합을 고려한 하한 L(k,r,2N)를 정의하고, 이들을 이용해 NA의 상·하한을 제시한다. 또한, 주요 경로만을 고려한 근사 마코프 체인을 구축해 실험적 시뮬레이션과 비교했으며, k가 작을 때(≤100) 근사값이 실제와 거의 일치함을 확인하였다. 이 결과는 전방 시뮬레이션 알고리즘의 효율성을 높이는 데 활용될 수 있다.

상세 분석

본 연구는 2N개의 염색체를 가진 고정 크기 이형성 개체군을 가정하고, 매 세대마다 각 염색체가 복제·재조합 과정을 거쳐 다음 세대로 전달되는 Wright‑Fisher 모델을 다룬다. 재조합률 r에 따라 한 염색체가 한 번에 최대 한 번의 교차가 발생할 수 있으며, 교차가 일어나면 두 상동염색체의 조각이 결합된 새로운 모자이크 염색체가 생성된다. 이러한 과정에서 “복제본”과 “후손”을 구분하고, 특정 염색체가 k 세대 이후 어떠한 후손도 남기지 않을 확률 NA(k,r,2N)를 정의한다.

정확한 NA는 모든 가능한 재조합·복제 경로를 열거해야 하므로 상태공간이 급격히 폭발한다. 저자는 이를 두 가지 제한된 경우로 나누어 하한 L(k,r,2N)를 도출한다. 첫 번째 경우(Class 1)는 초기 염색체와 그 후손이 전혀 재조합되지 않고, k 세대 내에 완전히 사라지는 경우이며, 두 번째 경우(Class 2)는 초기 염색체의 상동염색체가 첫 세대에 재조합하고, 이후 두 염색체 모두 재조합 없이 사라지는 경우이다. 각각의 경우에 대해 복제 수 n→m 전이 확률 s(n,m)와, 복제된 염색체가 쌍(pair) 혹은 단일(singleton) 형태로 존재할 확률 h(x,y,n)을 정의하고, 재조합이 없는 전이를 sh(n,m)으로 합산한다.

시간동질 마코프 체인 sh를 이용해 Class 1의 전이 확률 P₁(1,a,r,2N)를 구하고, 이를 a=0…k‑1까지 합산해 T₁을 얻는다. Class 2는 첫 전이에서 상동염색체가 재조합하는 확률 ss(2,m)를 추가하고, 이후 sh 전이로 이어지는 P₂(2,a,r,2N)를 정의한다. 최종적으로 L(k,r,2N)=T₁+T₂가 된다.

표 1의 시뮬레이션 결과는 L의 계산식이 실제 Monte‑Carlo 시뮬레이션과 거의 일치함을 보여준다(오차 <10⁻⁶). 또한, 재조합이 전혀 없는 경우 L(k,0,2N)은 NA의 상한이 되며, 이는 각 염기쌍이 독립적으로 사라지는 사건으로 해석된다.

NA의 근사식은 주요 경로만을 고려한다. 저자는 복제본을 서로 다른 개체에 존재한다고 가정하고, 복제본을 비재조합(m₁), 1회 재조합(m₂), 다회 재조합(m₃) 세 종류로 구분한다. 각 세대에서의 전이 확률 T(m₁,m₂,m₃→m₄,m₅,m₆) 를 다항분포 형태로 기술하고, p₁, p₂, p₃를 재조합 확률 e^{‑r}와 복제 비율을 이용해 정의한다. 시간비동질 마코프 체인을 구성해 초기 상태 (1,0,0)에서 (0,0,0)으로 k 단계 이내에 도달할 확률을 재귀적으로 계산한다. 이 근사식은 k가 작고 N이 충분히 클 때 시뮬레이션과 일치한다는 것이 실험적으로 확인되었다.

주요 통찰은 다음과 같다. (1) 재조합이 포함된 Wright‑Fisher 모델에서 정확한 소실 확률은 조합 폭발 때문에 실용적이지 않다. (2) 제한된 두 클래스만을 고려한 하한 L(k,r,2N)는 계산이 가능하면서 실제 NA와 근접한다. (3) 재조합이 전혀 없는 경우는 상한을 제공하며, 두 경계 사이의 차이는 재조합이 일으키는 상관성을 반영한다. (4) 제안된 근사 마코프 모델은 복제·재조합 과정을 평균적으로 요약해, 전방 시뮬레이션 알고리즘에서 불필요한 추적을 줄이고 효율성을 높인다. (5) 모델은 k≤100 정도의 짧은 시간 구간에만 정확성을 보장하므로, 장기적인 유전적 다양성 예측에는 별도의 접근이 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기