불완전 염기 삽입을 고려한 합성 기반 시퀀싱 통계 모델
본 논문은 단일 분자 시퀀싱 등에서 나타나는 불완전한 염기 삽입 현상을 수학적으로 모델링한다. 염기 삽입 확률과 목표 서열의 염기 조성에 기반해 흐름 사이클 수와 서열 길이의 확률 분포를 생성함수 형태로 유도하고, 평균·분산을 명시적으로 구한다. 또한 서열 맥락에 따른 삽입 확률 변화를 확장 모델에 포함시켜, 실제 SBS 플랫폼의 설계·분석에 활용할 수 있는 통계적 도구를 제공한다.
저자: Yong Kong
논문은 차세대 DNA 시퀀싱 기술 중 ‘합성 기반 시퀀싱(Sequencing by Synthesis, SBS)’에 초점을 맞추어, 특히 단일 분자 시퀀싱(SMS)과 같이 각 사이클에서 염기가 완전히 삽입되지 않을 가능성을 수학적으로 모델링한다. 서론에서는 기존 파이로시퀀싱이 100% 삽입을 전제로 한 한계를 지적하고, SMS에서는 삽입 확률을 조절해 동형성(dephasing) 문제를 회피하고자 하는 배경을 설명한다. 이어서 논문은 네 종류의 염기(a, b, c, d)를 임의의 순열로 치환하고, 목표 서열에서 각 염기가 등장할 확률(p_a, p_b, p_c, p_d)를 독립적으로 가정한다. 삽입 확률은 α_{ij} (i∈{a,b,c,d}, j≥0) 로 정의되며, j는 현재 흐름 사이클로부터 몇 사이클 뒤에 삽입이 일어나는지를 나타낸다. 예를 들어, α_{b0}=1/3, α_{b1}=1/2, α_{b2}=1/6이면 b 염기가 현재 사이클, 다음 사이클, 그다음 사이클에 각각 1/3, 1/2, 1/6 확률로 삽입된다는 의미다. 이때 α_{ij}의 합은 1이 되도록 정규화한다.
핵심 수학적 전개는 L_i(f,n)이라는 ‘길이 n인 서열이 f 흐름 사이클 안에 합성될 확률(정규화 전)’을 정의하고, 네 개의 재귀식(1a‑1d)을 세우는 것이다. 재귀식은 현재 사이클에서 삽입될 염기와 이전 사이클에서 남아 있던 미삽입 염기의 조합을 모두 고려한다. 이러한 재귀식은 직접 해석하기 어렵지만, 이들을 이중 생성함수 G_i(x,y)=∑_{f≥1}∑_{n≥1} L_i(f,n) x^f y^n 로 변환하면 선형 방정식 체계가 된다. 삽입 확률 자체의 생성함수 g_i(x)=p_i∑_{j≥0}α_{ij}x^j 를 도입하고, 이를 이용해 기본 대칭 함수 t_1(x)=∑ g_i, t_2(x)=∑_{i
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기