RNA‑Seq 전사체 차등발현 분석을 위한 베이지안 프레임워크 BitSeq
초록
본 논문은 RNA‑Seq 데이터에서 전사체 수준의 발현량을 베이지안 방법으로 추정하고, 복제 실험을 통한 생물학적 변이를 모델링하여 차등발현(transcript‑level DE)을 정확히 검출하는 BitSeq 파이프라인을 제안한다. MCMC 기반의 사후분포 샘플을 이용해 기술적 불확실성을 보존하고, 로그‑정규 계층 모델로 복제 간 변이를 추정함으로써 저발현 전사체의 거짓 양성률을 감소시킨다. 구현은 C++로 제공된다.
상세 분석
BitSeq은 두 단계로 구성된 분석 흐름을 갖는다. 첫 번째 단계에서는 각 샘플별로 전사체 상대 발현량 θ를 추정한다. 저자는 읽기(read) 생성 과정을 “읽기 → 전사체 지시 변수 I_n → 잡음 지시 변수 Z_act_n”이라는 그래프 모델로 수식화하고, θ는 디리클레 사전, 잡음 비율 θ_act는 베타 사전으로 설정한다. 읽기와 전사체 간 매핑 확률 P(r_n|I_n=m)은 Bowtie 정렬 결과와 위치·시퀀스 편향 보정을 통해 사전 계산된다. 이때 다중 매핑(reads that map to several transcripts)도 모두 보존한다. 사후분포는 폐쇄형 해가 없으므로, θ를 주변화한 뒤 collapsed Gibbs sampler를 적용해 I_n(전사체 할당) 샘플을 얻고, 이를 통해 θ의 사후 샘플을 생성한다. 여러 체인에서 Gelman‑Rubin b̂R 통계량을 이용해 수렴을 확인한다.
두 번째 단계에서는 복제 데이터를 통합해 차등발현을 평가한다. 각 복제 r의 로그 발현 y_crm은 조건 평균 μ_cm와 복제‑특이 정규화 상수 n_cr, 정밀도 λ_cm을 갖는 정규분포로 가정한다. μ_cm은 로그‑정규 계층 모델을 통해 조건 간 평균을 추정하고, 변이(σ^2)의 사전은 평균 발현 수준에 의존하는 비선형 함수로 비모수 회귀(예: 스플라인)로 학습한다. 중요한 점은 1차 단계에서 얻은 MCMC 샘플을 “가짜 데이터(pseudo‑data)”로 사용한다는 점이다. 각 복제마다 하나의 샘플을 선택해 y_crm을 구성하고, 이 가짜 데이터에 대해 위의 정규‑정규(conjugate) 모델을 정확히 추론한다. 이렇게 하면 기술적 노이즈가 사전 단계에서 이미 반영된 상태에서 생물학적 변이만을 추정할 수 있다.
차등발현 판단은 조건 평균 μ의 사후분포 차이를 기반으로 Positive Log‑ratio Probability (PPLR)를 계산한다. PPLR은 두 조건 간 로그 비율이 양수일 확률이며, 이를 내림차순으로 정렬해 전사체 수준 DE 리스트를 만든다. 저자는 시뮬레이션 및 실제 RNA‑Seq 데이터(기술·생물학 복제 포함)를 통해 BitSeq이 기존 EM‑기반 방법(Cufflinks, eXpress)이나 단순 베이지안 방법에 비해 FDR을 낮추고, 특히 저발현 전사체에서 거짓 양성을 크게 억제함을 보인다.
알고리즘적 측면에서 BitSeq은 (1) 다중 매핑을 완전 보존, (2) 잡음 모델을 명시적으로 포함, (3) MCMC 샘플을 그대로 전이시켜 불확실성을 보존, (4) 비모수 변이 사전 학습을 통해 복제 수가 적어도 안정적인 변이 추정이 가능하도록 설계되었다. 구현은 C++로 고성능을 제공하며, 파이프라인 전체를 스크립트로 자동화한다. 다만, MCMC 샘플링 비용이 높은 편이며, 대규모 데이터셋에서는 샘플 수와 수렴 판단이 실무적 병목이 될 수 있다. 향후 변형으로 변분 추정(Variational Bayes)이나 GPU 가속을 도입하면 실시간 분석에 가까워질 전망이다.
댓글 및 학술 토론
Loading comments...
의견 남기기