mmcmcBayes 다단계 MCMC 기반 차등 메틸화 영역 탐지 R 패키지
초록
mmcmcBayes는 알파‑스큐 일반정규분포를 이용해 영역 수준 메틸화 요약값을 모델링하고, 베이지안 가설검정의 베이즈 팩터로 차등 메틸화 영역을 평가한다. 다단계 MCMC와 영역 분할 전략을 통해 초기 큰 구역을 점진적으로 세분화하여 신호를 정밀하게 포착한다.
상세 분석
본 논문은 기존 CpG‑단위 검정 후 영역을 구성하는 방식의 한계를 극복하고자, 영역 자체를 분석 단위로 삼는 새로운 통계 프레임워크를 제시한다. 핵심은 M‑값(로그‑오즈 변환된 β‑값)을 알파‑스큐 일반정규(ASGN) 분포로 가정함으로써, 실제 메틸화 데이터가 보이는 비대칭·다중봉우리 특성을 자연스럽게 포착한다는 점이다. ASGN은 위치(ν), 스케일(δ²), 스큐(α) 세 파라미터를 갖으며, 각각에 대해 정규·역감마 사전분포를 부여한다. 다단계 MCMC는 단계 ℓ마다 전체 구역을 일정 수(num_splits)로 분할하고, 각 구역에 대해 암·정상 두 그룹을 별도 ASGN으로 모델링한다. 귀무가설(H0)에서는 두 그룹이 동일한 ASGN 파라미터를 공유하도록 하고, 대립가설(H1)에서는 파라미터를 독립적으로 추정한다. 베이즈 팩터 BFℓk = P(data|H1)/P(data|H0) 를 계산해 사전 정의된 임계값을 초과하면 해당 구역을 다음 단계로 분할한다. 이 과정은 최대 단계(max_stages)까지 반복되며, 최종 단계에서 BF가 임계값을 초과한 구역은 차등 메틸화 영역(DMR)으로 보고한다.
알고리즘은 사후 평균을 다음 단계의 사전(mean)으로 사용해 정보가 단계 간에 순차적으로 전달되도록 설계했으며, 사전 분산은 1로 고정해 과도한 제약을 방지한다. 구현 측면에서는 mmcmcBayes() 함수가 핵심이며, 입력은 암·정상 두 그룹의 M‑값 행렬이다. 데이터는 CpG 순서대로 정렬돼야 하며, 결측값은 평균 계산 시 제외된다. 사용자는 단계 수, 분할 수, MCMC 파라미터, 베이즈 팩터 임계값 등을 자유롭게 조정할 수 있다.
시뮬레이션 결과는 FDR 제어와 검출 정밀도 사이에서 max_stages=3, num_splits=50이 실용적인 균형을 제공함을 보여준다. 실제 450K 배열 데이터에 적용했을 때, 기존 CpG‑기반 방법에 비해 더 좁고 생물학적으로 의미 있는 DMR을 식별하였다.
이 방법의 장점은 (1) 비대칭·다중봉우리 분포를 직접 모델링함으로써 데이터 적합성을 높임, (2) 사전‑사후 정보를 단계별로 전이해 지역화 정확도를 향상시킴, (3) 베이즈 팩터를 통한 직관적 증거 척도를 제공한다는 점이다. 한편, MCMC 샘플링 비용이 높아 대규모 데이터셋에서는 계산량이 제한 요인이 될 수 있으며, 초기 구역 정의가 결과에 민감할 가능성이 있다. 향후 고성능 병렬화 및 자동 구역 초기화 전략이 보완된다면, 다양한 메틸화 플랫폼에 적용 가능한 범용 도구가 될 전망이다.
댓글 및 학술 토론
Loading comments...
의견 남기기