RNA Seq 전사체 정량 모델 총정리
초록
RNA‑Seq를 이용한 전사체 정량 문제를 다루며, 기존에 제안된 다양한 확률 모델과 추정 방법을 비교·통합한다. 모델 형태는 다르지만 EM 기반 추정은 동일한 상대 발현량을 제공한다는 핵심 결과를 제시한다. 또한 정량 결과가 차등 발현 분석 등에 미치는 영향을 논한다.
상세 분석
본 논문은 RNA‑Seq 데이터에서 전사체(isoform) 상대 발현량을 추정하는 문제를 수학적 모델링 관점에서 체계적으로 정리한다. 가장 기본적인 가정은 시퀀싱 리드가 전사체의 길이에 비례하여 무작위로 추출된다는 것이며, 이를 바탕으로 Poisson 혹은 Multinomial 분포를 이용한 확률 모델이 제안된다. 각 리드가 어느 전사체에서 유래했는지를 숨은 변수(z)로 두고, 전체 데이터는 이 숨은 변수들의 합으로 표현한다. EM(Expectation‑Maximization) 알고리즘은 E‑step에서 현재 추정된 발현량을 이용해 각 리드가 특정 전사체에 속할 확률을 계산하고, M‑step에서 이 기대값을 사용해 발현량 파라미터를 업데이트한다. 논문은 Cufflinks, RSEM, IsoEM 등 기존 방법들이 모두 이 EM 프레임워크의 특수한 구현임을 보이며, 초기값 설정, 정규화, 길이 보정 등 세부 차이가 결과에 미치는 영향을 분석한다. 또한 GC‑content, 3′‑bias, 프라그멘트 길이 분포 등 실험적 편향을 모델에 포함시키는 방법을 제시하고, 이러한 편향 보정이 정량 정확도를 크게 향상시킨다는 실증적 증거를 제공한다. 베이지안 접근법에서는 사전분포를 도입해 불확실성을 정량화하고, 변분 베이즈 혹은 MCMC 샘플링을 통해 사후분포를 추정한다. 이러한 방법들은 EM 기반 점추정과는 달리 신뢰구간을 제공하지만 계산 비용이 크게 증가한다. 마지막으로, 정량된 전사체 발현량이 차등 발현 분석, 스플라이싱 이벤트 검출, 기능적 해석 등에 어떻게 활용되는지를 논의하며, 정확한 정량이 downstream 분석의 신뢰성을 좌우한다는 점을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기