파이로시퀀싱 통계분포 분석
본 논문은 파이로시퀀싱에서 발생하는 흐름 사이클 수와 서열 길이의 확률분포를, 목표 서열의 염기 비율(pₐ, p_b, p_c, p_d)을 변수로 하여 정확히 유도한다. 이산형 확률생성함수(GF)를 이용해 흐름 사이클이 고정된 경우와 서열 길이가 고정된 경우 각각에 대한 평균·분산을 구하고, 두 경우 모두 정규분포로 근사할 수 있음을 보였다. 제시된 식은 장비 설계·소프트웨어 최적화에 직접 활용 가능하다.
저자: Yong Kong
본 논문은 차세대 시퀀싱 기술 중 하나인 파이로시퀀싱의 핵심적인 통계적 특성을 수학적으로 규명한다. 파이로시퀀싱은 네 종류의 디옥시뉴클레오타이드(dATP, dCTP, dGTP, dTTP)를 순차적으로 흐르게 하여, 템플릿 DNA와 결합할 경우 방출되는 피로인산(PPi)을 ATP와 루시페라아제 반응을 통해 빛 신호로 변환하고, 이를 검출해 서열을 복원한다. 실제 실험에서는 동일 염기가 연속으로 여러 번 삽입될 경우 빛 신호가 비선형적으로 변하는 등 복잡한 현상이 존재하지만, 본 연구는 ‘각 염기가 독립적으로 등장한다’는 단순 가정 하에 흐름 사이클 수와 서열 길이 사이의 확률 분포를 정확히 도출한다.
먼저 저자는 염기 확률을 pₐ, p_b, p_c, p_d 로 정의하고, 흐름 사이클 번호 f와 서열 길이 n을 변수로 하는 확률 L_i(f,n) (i는 마지막 삽입된 염기의 종류)을 설정한다. 이들 사이의 관계는 네 개의 재귀식(식 2)으로 표현되며, 이는 현재 흐름 사이클과 서열 길이에 따라 이전 단계의 확률을 선형 결합한다. 직접적인 해를 구하기는 어려우나, 이산형 확률생성함수(GF) G_i(x,y)=∑_{f,n}L_i(f,n)x^{f}y^{n} 를 도입함으로써 식 (4)~(7) 형태의 닫힌 해를 얻는다. 여기서 x와 y는 각각 흐름 사이클과 서열 길이에 대한 지표 변수이며, H와 F는 염기 확률의 대칭함수 s₂, s₃, s₄ 로 구성된 다항식이다.
네 종류의 G_i 를 모두 합산하면 전체 흐름 사이클에 대한 생성함수 G(x,y) (식 9)를 얻는다. 이 함수는 염기 확률에 대한 완전 대칭성을 가지며, x=1 혹은 y=1 로 고정했을 때 각각 ‘고정된 서열 길이에서 흐름 사이클의 정규화 상수’와 ‘고정된 흐름 사이클에서 서열 길이의 정규화 상수’를 제공한다(식 10, 11).
평균과 분산은 생성함수의 1차·2차 미분을 통해 구한다. 고정된 서열 길이 n 에 대해 흐름 사이클 f 의 평균은 \(\bar f(n)=s_2 n - s_2 + 1\) (식 16)이며, 분산은 \(\sigma_f^2(n) = (s_2 - 3s_2^2 + 2s_3)n + (5s_2^2 - s_2 - 4s_3)\) (식 17)이다. 염기 확률이 모두 동일(pₐ=p_b=p_c=p_d=¼)인 경우, 평균은 (3/8)n+5/8, 분산은 (5/64)n+5/64 로 간단히 표현된다. 이는 서열 길이가 길어질수록 흐름 사이클 수와 그 변동성이 선형적으로 증가함을 의미한다.
반대로 흐름 사이클 f 가 고정된 경우 서열 길이 n 의 평균은 \(\bar n(f) ≈ f s_2 + \frac{2s_3}{s_2^2-2}\) (식 20)이며, 분산은 식 21에 제시된 복합식으로 주어진다. 동일 확률 가정 시 \(\bar n(f)≈\frac{8}{3}f- \frac{10}{9}\), \(\sigma_n^2(f)≈\frac{40}{27}f-\frac{20}{81}\) 로 근사된다.
두 경우 모두 평균·분산을 이용해 정규분포 N(μ,σ²) 로 근사할 수 있음을 실험적으로 확인한다. 논문은 n=250인 서열에 대해 동일 확률과 비균등 확률(예: pₐ=1/3, p_b=1/11, p_c=100/231, p_d=1/7) 두 가지 시나리오를 시뮬레이션하고, 정확한 이산 분포와 해당 평균·분산을 갖는 정규분포를 겹쳐 비교하였다. 결과는 정규분포가 실제 분포를 매우 잘 따라가며, 특히 평균이 큰 경우 오차가 더욱 감소함을 보여준다.
이러한 수학적 모델링은 파이로시퀀싱 장비 설계와 소프트웨어 개발에 실질적인 가치를 제공한다. 예를 들어, 특정 흐름 사이클 수 내에서 기대되는 최대 서열 길이와 그 변동성을 미리 예측함으로써 시퀀싱 효율을 최적화하거나, 흐름 사이클이 초과될 경우 발생할 수 있는 오류를 사전에 모델링할 수 있다. 또한, 생성함수 기반 접근법은 다른 차세대 시퀀싱 플랫폼에도 확장 가능하며, 염기 비율이 변하는 다양한 실험 조건에 대한 일반적인 해석 틀을 제공한다.
마지막으로, 저자는 모든 계산을 정밀 정수·분수 연산으로 수행하기 위해 PARI/GP를 사용했으며, 부동소수점 오차가 누적되는 것을 방지했다. 이는 제시된 공식들의 재현성을 보장하고, 실제 데이터에 적용할 때도 높은 정확도를 유지할 수 있음을 의미한다. 전체적으로 본 연구는 파이로시퀀싱의 통계적 특성을 이론적으로 완전 규명함으로써, 향후 장비 성능 평가, 품질 관리, 알고리즘 개발 등에 중요한 기반을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기