트리 결합 Mann Whitney 방법으로 저효과 유전자들의 전장 연관성 탐색

본 논문은 낮은 주변 효과(LME)를 가진 다수의 유전 변이가 복합 질환에 미치는 공동 영향을 효율적으로 탐색하기 위해 트리 기반 Mann‑Whitney 통계량을 결합한 새로운 방법(TAMW)을 제안한다. 시뮬레이션과 Crohn 병 실증 분석에서 기존 MDR·LRMW 대비 높은 검정력과 계산 효율성을 보였으며, 대규모 GWAS(459 K SNP)에서도 40

트리 결합 Mann Whitney 방법으로 저효과 유전자들의 전장 연관성 탐색

초록

본 논문은 낮은 주변 효과(LME)를 가진 다수의 유전 변이가 복합 질환에 미치는 공동 영향을 효율적으로 탐색하기 위해 트리 기반 Mann‑Whitney 통계량을 결합한 새로운 방법(TAMW)을 제안한다. 시뮬레이션과 Crohn 병 실증 분석에서 기존 MDR·LRMW 대비 높은 검정력과 계산 효율성을 보였으며, 대규모 GWAS(459 K SNP)에서도 40시간 내에 의미 있는 전장 연관성을 발견하였다.

상세 요약

TAMW는 크게 두 단계로 구성된다. 첫 번째 단계에서는 부트스트랩 샘플링을 이용해 다수의 의사결정 트리를(예: CART) 를 구축하고, 각 트리마다 해당 트리의 리프 노드에 속한 샘플들의 Mann‑Whitney U 통계량을 계산한다. 여기서 Mann‑Whitney는 연속형 표현형(또는 이진 질환 상태)과 SNP 조합 간의 순위 차이를 비모수적으로 평가한다는 장점을 갖는다. 두 번째 단계에서는 개별 트리에서 얻은 U값들을 가중 평균하여 최종 통계량을 산출한다. 가중치는 트리의 분할 품질(예: Gini impurity 감소)과 부트스트랩 내 재현성에 기반해 할당되며, 이는 잡음 SNP가 전체 통계량에 미치는 영향을 자연스럽게 억제한다.

통계적 유의성 평가는 permutation 테스트를 통해 수행한다. 원본 라벨을 무작위 재배열한 뒤 동일한 TAMW 파이프라인을 적용해 null 분포를 생성하고, 실제 관측값이 이 분포의 어느 위치에 놓이는지를 p‑값으로 환산한다. 이 과정은 병렬화가 용이해 대규모 GWAS에서도 실용적이다.

시뮬레이션에서는 20개의 LME SNP가 복합적으로 작용하는 상황을 설정했으며, 각 SNP의 주효과는 OR≈1.1 수준으로 매우 낮았다. TAMW는 0.931의 검정력을 기록했는데, 이는 MDR(0.599)와 LRMW(0.704)를 크게 앞선 결과다. 특히 상호작용이 비선형적이거나 고차원(3‑way 이상)일 때 TAMW의 이점이 두드러졌다.

실제 데이터에서는 Crohn 병에 알려진 29개의 위험 SNP를 대상으로 분석했다. TAMW는 전체 29 SNP를 동시에 고려했을 때 p=1.2e‑12의 강력한 연관성을 발견했으며, 이는 MDR와 LRMW가 각각 p=3.5e‑8, p=9.1e‑9를 보고한 것보다 월등히 낮은 값이다. 추가적으로 Wellcome Trust CD GWAS(총 459 K SNP) 전체에 적용했을 때, 40시간 내에 p=2.76e‑19의 전장 연관성을 검출했고, 이 연관 영역에는 ATG16L1, LACC1 등 13개의 후보 유전자가 포함되었다.

알고리즘 복잡도 측면에서 TAMW는 각 트리 구축에 O(N·log N) (N: 샘플 수) 정도의 비용이 들고, 트리 수를 T로 두면 전체 복잡도는 O(T·N·log N)이다. 병렬 환경에서는 T를 코어 수에 맞춰 분산시킬 수 있어 실질적인 실행 시간은 선형적으로 감소한다. 이는 기존 MDR가 모든 가능한 조합을 탐색해야 하는 O(2^k) (k: 선택 SNP 수) 복잡도와 비교해 현저히 효율적이다.

한계점으로는 트리 기반 모델이 연속형 표현형에 비해 이진형 질환에 더 적합하다는 점, 그리고 부트스트랩 및 permutation 단계가 메모리 사용량을 크게 요구한다는 점을 들 수 있다. 또한, 트리의 깊이를 과도하게 늘리면 과적합 위험이 존재하므로 교차 검증을 통한 하이퍼파라미터 튜닝이 필요하다.

전반적으로 TAMW는 저효과 다중 유전자를 동시에 고려하면서도 비모수적 검정력을 유지하는 강력한 도구이며, 특히 대규모 GWAS에서 계산 효율성과 검정력 사이의 균형을 잘 맞춘 방법으로 평가된다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...