동적 네트워크로 보는 인간 질환 연관성
초록
30 백만 명 이상의 환자 진료 기록을 기반으로 구축한 ‘현상학적 질환 네트워크(PDN)’를 제시한다. 네트워크 상에서 인접한 질환으로의 진행이 실제 환자들의 질병 전이와 일치함을 보이고, 성별·인종에 따라 전이 경로가 다르며, 네트워크 중심도가 높은 질환일수록 사망 위험이 높다는 점을 규명한다. 데이터는 공개되어 향후 연구에 활용될 수 있다.
상세 분석
본 논문은 대규모 전자건강기록(EHR) 데이터를 활용해 질환 간 상관관계를 정량화하고, 이를 네트워크 형태로 시각화한 ‘현상학적 질환 네트워크(PDN)’를 구축하였다. 질환 간 연관성은 두 질환이 동일 환자에게 동시에 혹은 연속적으로 나타난 빈도를 기반으로 φ‑계수와 상대위험도(RR)를 계산하여 가중치로 부여했으며, 통계적 유의성을 확보하기 위해 95 % 신뢰구간과 다중 검정 보정(FDR)을 적용하였다. 네트워크는 무방향 가중 그래프로 표현되었으며, 노드(질환)의 차수분포는 멱법칙 형태를 띠어 ‘스케일프리’ 특성을 보였다. 클러스터링 계수와 모듈러리티 분석을 통해 질환군이 기능적·임상적 유사성을 공유하는 커뮤니티로 구분됨을 확인하였다.
진행 경로 분석에서는 환자별 질병 발생 순서를 시간축에 매핑하고, 현재 보유한 질환과 네트워크 상 인접한 질환 사이의 거리(Shortest Path Length)를 측정하였다. 결과는 대부분의 환자가 기존 질환과 네트워크 거리 1~2에 해당하는 새로운 질환으로 전이한다는 점을 보여, 네트워크 구조가 질병 진행 메커니즘을 반영한다는 가설을 뒷받침한다. 또한, 성별·인종별 서브그룹별로 전이 패턴을 비교한 결과, 특정 질환군(예: 심혈관계 질환)은 남성·흑인 집단에서 더 짧은 전이 경로를 보였으며, 이는 사회·생물학적 요인의 복합적 영향을 시사한다.
중심성 분석에서는 연결도가 높은(고차수) 질환이 사망률과 강한 양의 상관관계를 갖는 것으로 나타났다. 특히, ‘전이 전 단계’를 많이 갖는 질환(다른 질환에 의해 먼저 발생하는 경우)이 네트워크 내에서 높은 차수를 보이며, 이들 질환은 평균 사망 연령이 낮았다. 이는 네트워크 중심성이 질환의 중증도와 예후를 예측하는 잠재적 바이오마커가 될 수 있음을 의미한다.
데이터 공개 측면에서 저자들은 원시 진단 코드, 환자 연령·성별·인종 메타데이터, 그리고 구축된 PDN의 엣지 리스트와 가중치를 포함한 CSV 파일을 GitHub와 Dryad에 동시에 배포하였다. 이는 재현성 확보와 타 연구자들의 메타분석, 머신러닝 기반 예측 모델 개발에 기여할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기