디지털 유전자 발현 데이터의 비모수 베이지안 모델링
본 논문은 RNA‑seq 등 디지털 유전자 발현 데이터에서 복제 수가 적거나 전혀 없는 상황을 해결하기 위해, 음이항 분포 기반의 계층적 모델에 디리클레 프로세스(스틱‑브레이킹) 클러스터링을 결합한 비모수 베이지안 접근법을 제안한다. Gibbs 샘플링을 이용해 파라미터와 클러스터 수를 동시에 추정함으로써, 유사한 발현 패턴을 보이는 유전자들을 하나의 클러스터로 묶어 정보 공유를 가능하게 한다. 공개된 암·비암 신경 조직 데이터에 적용한 결과, …
저자: Dimitrios V. Vavoulis, Julian Gough
본 논문은 차세대 시퀀싱(NGS) 기술이 생성하는 디지털 유전자 발현 데이터, 즉 각 유전자·샘플에 대한 읽기(read) 수를 분석하는 새로운 통계적 방법을 제시한다. 기존에는 마이크로어레이 기반의 정규성 가정 검정이나, 음이항·포아송 모델을 변형한 방법들이 사용되었지만, 복제 수가 적거나 전혀 없는 경우에는 파라미터 추정이 불안정해지는 문제가 있었다. 이를 해결하기 위해 저자들은 두 가지 핵심 아이디어를 결합한다. 첫째, 과잉분산을 자연스럽게 포착하는 음이항 분포를 기본 모델로 채택한다. 여기서 평균 μᵢⱼ은 샘플 깊이(cⱼ)와 유전자·조건별 로그-선형 효과 βᵢₗ의 곱으로 표현되며, 분산은 평균에 αᵢₗ(과잉분산 파라미터)으로 조절된다. 둘째, 파라미터(αᵢₗ, βᵢₗ)를 무한 혼합 모델, 즉 디리클레 프로세스(DP) 사전분포에 두어 클러스터링 효과를 도입한다. 스틱‑브레이킹 절차를 통해 가중치 wₖ와 클러스터 지표 zᵢₗ을 생성하고, 동일 클러스터에 속한 유전자·조건은 동일한 (α∗ₖ, β∗ₖ) 값을 공유한다. 이렇게 하면 복제 수가 부족한 경우에도 클러스터 전체 데이터를 풀(pool)하여 파라미터를 추정할 수 있다.
모델의 계층 구조는 다음과 같다. 최상위에서 θ∗ₖ(α∗ₖ, β∗ₖ)는 역감마·정규 결합 사전분포 G₀에 따라 샘플링되고, 클러스터 가중치 wₖ는 파라미터 η를 갖는 스틱‑브레이킹 프로세스로 생성된다. 각 유전자 i와 클래스 l에 대해 지표 zᵢₗ은 Categorical(w₁, w₂, …)에서 추출되며, 해당 클러스터의 파라미터를 할당받는다. 마지막 단계에서 관측된 읽기 yᵢⱼ는 해당 클러스터 파라미터에 의해 정의된 음이항 분포를 따른다.
추론은 차단된 Gibbs 샘플링을 이용한다. 구체적으로, (1) 클러스터 할당 zᵢₗ을 현재 클러스터 파라미터와 가중치를 이용해 갱신하고, (2) 각 클러스터의 파라미터 θ∗ₖ를 해당 클러스터에 속한 데이터의 충분통계량을 사용해 업데이트한다. (3) 스틱‑브레이킹 변수 Vₖ와 가중치 wₖ를 베타 사후분포에서 샘플링하고, (4) 하이퍼파라미터(α, sα, μβ, σ²β, η)를 메트로폴리스‑헤이스팅스텝이나 공액 사후분포를 통해 추정한다. 이러한 순환 과정을 충분히 반복하면 파라미터와 클러스터 구조에 대한 사후분포를 얻을 수 있다.
실험에서는 인간 뇌 조직에서 추출한 암성 및 비암성 샘플의 RNA‑seq 데이터를 사용하였다. 데이터는 복제 수가 1~2개로 제한되어 있었으며, 기존 방법(edgeR, DESeq, baySeq 등)은 과잉분산 추정에 어려움을 겪었다. 제안 모델은 클러스터링을 통해 평균과 분산을 안정적으로 추정했으며, 차등 발현 유전자 검출에서 높은 민감도와 특이도를 보였다. 특히, 클러스터 수는 사후분포에 의해 자동 결정되었으며, 대부분의 유전자는 3~5개의 주요 클러스터에 할당되어 유사 발현 패턴을 공유함을 확인했다. 또한, 모델이 제공하는 사후 신뢰구간을 통해 각 유전자의 발현 차이에 대한 불확실성을 정량화할 수 있었다.
논문은 다음과 같은 결론을 제시한다. (1) 비모수 베이지안 클러스터링은 복제 수가 적은 디지털 유전자 발현 데이터에서 과잉분산을 정확히 모델링할 수 있다. (2) 클러스터 기반 정보 공유는 파라미터 추정의 효율성을 크게 향상시켜 차등 발현 분석의 신뢰성을 높인다. (3) 제안된 Gibbs 샘플링 알고리즘은 비교적 간단히 구현 가능하지만, 대규모 데이터셋에 대한 스케일링을 위해 변형된 변분 추정법이나 병렬화가 필요할 수 있다. 향후 연구에서는 클러스터링 결과를 기능적 경로와 연결하거나, 시간적·공간적 연속성을 고려한 확장 모델을 개발하는 방향을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기