ChIPseq 데이터의 확률적 추론 PICS 방법
초록
PICS는 ChIP‑seq 정렬읽기 데이터를 확률적 모델로 분석해 전사인자 결합 부위를 식별한다. 방향성 읽기와 조각 길이 사전 정보를 이용해 베이지안 계층 t‑혼합 모델을 구축하고, 전반적인 매핑 가능성 및 비정상적인 조각 길이를 보정한다. 또한 대조군을 활용해 풍부도 점수를 산출하고 FDR을 추정한다. GABP와 FOXA1 데이터셋에서 MACS, QuEST, CisGenome 대비 결합 모티프와의 일치도가 높았다.
상세 분석
PICS는 ChIP‑seq 데이터의 특수성을 반영한 통계적 프레임워크를 제시한다. 먼저 지역별 방향성 읽기 농도를 모델링해 후보 결합 영역을 탐지한다. 이때 양방향 읽기의 중심이 서로 마주보는 형태를 가정함으로써 실제 DNA‑protein 복합체의 위치를 추정한다. 두 번째 단계에서는 베이지안 계층 t‑혼합 모델을 도입해 인접한 결합 이벤트를 구분한다. 여기서 조각 길이의 사전 분포를 활용해 각 이벤트별 조각 길이를 추정하고, 비정상적으로 긴 혹은 짧은 조각을 가진 영역을 자동으로 제외한다. 또한 전역 매핑 가능성 프로파일을 사전 계산해 반복적인 유전체 구간에서 발생하는 읽기 손실을 truncated t‑분포로 보정한다. 파라미터 추정 과정에서 MCMC 샘플링을 이용해 사후 분포의 불확실성을 정량화하고, 이를 기반으로 결합 위치의 신뢰 구간을 제공한다. 마지막으로 대조군 샘플을 이용해 각 이벤트의 풍부도 점수를 계산하고, 전체 이벤트에 대한 FDR을 추정한다. 실험에서는 인간 세포주에서 GABP와 FOXA1 항체를 사용한 공개 데이터셋을 대상으로 MACS, QuEST, CisGenome과 비교하였다. PICS가 도출한 결합 부위는 알려진 전사인자 결합 모티프와의 일치율이 가장 높았으며, 특히 인접한 결합 이벤트를 분리하는 능력이 뛰어났다. 이러한 결과는 PICS가 조각 길이와 매핑 가능성을 정교히 모델링함으로써 기존 방법보다 높은 해상도와 정확성을 제공함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기