다중 SNP 분석을 위한 새로운 기법 경로 구분 분석
초록
본 논문은 GWAS 데이터와 경로‑유전자‑SNP 연관 정보를 활용해, 질병과 관련된 경로가 케이스와 컨트롤을 구분할 수 있는지를 평가하는 Pathways of Distinction Analysis(PoDA)를 제안한다. 경로 내 SNP들의 집합이 케이스 간 유사성을 높이고 컨트롤과 차이를 보이는지를 통계적으로 검정함으로써, 독립적인 주효과가 없더라도 상호작용(epistasis) 기반 위험 경로를 발견한다. 저자들은 유방암과 간암 GWAS에 PoDA를 적용해 기존 방법이 놓친 여러 생물학적 경로를 식별하였다.
상세 분석
PoDA는 기존 단일 SNP 분석과 SNP‑set enrichment 분석의 한계를 보완하는 새로운 프레임워크이다. 먼저, 연구자는 공개된 KEGG, Reactome 등에서 정의된 경로와 해당 경로에 속한 유전자, 그리고 유전자와 연결된 SNP 정보를 매핑한다. 각 경로별로 선택된 SNP 집합에 대해, 모든 샘플을 두 그룹(케이스와 컨트롤)으로 나눈 뒤, 각 샘플이 자신이 속한 그룹 평균 유전형과 얼마나 유사한지를 거리 기반 지표(예: 유클리드 거리 혹은 마할라노비스 거리)로 계산한다. 이때 핵심 가설은 “질병 관련 경로는 케이스 간 유사도가 높고, 케이스와 컨트롤 간 유사도는 낮다”는 것이다. 따라서 각 경로마다 케이스‑케이스 거리 평균과 케이스‑컨트롤 거리 평균을 비교하고, 차이가 통계적으로 유의한지를 permutation test 혹은 부트스트랩을 통해 검증한다.
PoDA의 장점은 두 가지이다. 첫째, SNP 간 상호작용을 직접 모델링하지 않으면서도, 집합 수준에서 상호작용 효과를 포착한다는 점이다. 이는 개별 SNP가 미미한 효과를 보이더라도, 경로 전체에서 비선형적인 결합이 질병 위험을 설명할 수 있음을 의미한다. 둘째, 경로 단위의 검정이므로 생물학적 해석이 직관적이며, 기존 GWAS에서 발견되지 않은 새로운 메커니즘을 제시한다.
실험에서는 유방암 GWAS(약 1,200 사례, 1,200 대조)와 간암 GWAS(약 800 사례, 800 대조)를 대상으로 PoDA를 수행하였다. 유방암에서는 DNA 복구, 세포 주기 조절, 호르몬 신호 전달 경로가 높은 구분력을 보였으며, 특히 BRCA1/2와 연관된 복구 경로는 기존 단일 SNP 분석에서 유의미한 변이를 찾지 못했음에도 불구하고 PoDA에서는 강한 신호를 나타냈다. 간암에서는 지방 대사, 염증 반응, 항산화 경로가 주요 후보로 도출되었으며, 이들 경로는 간암 위험과 관련된 알려진 환경 요인(예: 알코올, 비만)과의 연관성을 뒷받침한다.
통계적 검증 결과, permutation을 10,000회 수행한 뒤 얻은 FDR 보정 p값이 0.05 이하인 경로는 각각 23개(유방암)와 17개(간암)였으며, 이는 기존 GWAS에서 보고된 단일 SNP 수준의 유의미한 변이 수보다 현저히 많다. 또한, PoDA에서 도출된 경로를 기반으로 위험 점수를 계산했을 때, ROC 곡선 아래 면적(AUC)이 0.78(유방암)과 0.73(간암)으로, 전통적인 polygenic risk score보다 우수한 예측력을 보였다.
한계점으로는 경로 정의에 대한 의존성, SNP 매핑 오류 가능성, 그리고 거리 측정 방식에 따른 민감도 차이가 있다. 또한, PoDA는 대규모 샘플이 필요하며, 희귀 변이에 대한 검출력은 제한적이다. 향후 연구에서는 더 정교한 거리 함수와 가중치 부여 전략을 도입하고, 다중 오믹스 데이터와 통합해 경로 수준의 인과 관계를 심층 탐구할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기