멀티오믹스 질병 분류를 위한 트리 기반 그래프 신경망 MOTGNN
초록
MOTGNN은 XGBoost로 각 오믹스별 중요한 특징을 추출하고, 그 트리 구조를 그래프로 변환해 GNN으로 학습한다. 이후 딥 피드포워드 네트워크로 통합하여 이진 질병 예측을 수행하며, 특징·오믹스 수준의 해석성을 제공한다. 실험에서 3개 실제 질병 데이터셋에 대해 기존 최첨단 모델보다 5‑10% 높은 정확도·ROC‑AUC·F1을 달성하고, 클래스 불균형에도 강인함을 보였다.
상세 분석
본 논문은 멀티오믹스 데이터 통합에서 발생하는 “소량의 샘플 대비 고차원 피처” 문제와, 기존 그래프 구축 방식이 비지도적·유사도 기반이라 비선형·태스크 특이적 관계를 놓치는 한계를 동시에 해결하고자 한다. 핵심 아이디어는 XGBoost의 결정 트리를 활용해 감독형(feature‑supervised) 그래프를 생성하는 것이다. XGBoost는 각 트리에서 분할에 사용된 피처를 노드로, 부모‑자식 관계를 무방향 엣지로 매핑한다. 이렇게 얻어진 그래프는 각 오믹스별로 독립적으로 구성되며, 트리 학습 과정에서 이미 라벨 정보를 반영했기 때문에 의미 있는 상호작용을 보존한다. 또한 트리 기반 피처 선택을 통해 원본 피처 수(p) 를 크게 감소시켜(p* ≪ p) 차원 저주와 잡음 문제를 완화한다.
그래프가 구축된 뒤에는 GEDFN(Graph‑Embedded Deep Feedforward Network) 형태의 GNN을 적용한다. GEDFN은 입력‑첫 은닉층 사이의 가중치를 그래프 인접행렬과 원소별 곱(⊙)으로 제한함으로써, 그래프에 존재하지 않는 연결은 학습되지 않게 만든다. 이는 희소성(sparsity)과 해석성을 동시에 제공한다는 점에서 기존 GCN·GAT와 차별화된다. 각 오믹스별 GNN은 자체적인 임베딩 Z₁, Z₂, Z₃을 생성하고, 이를 단순 연결(concatenation)한 뒤 다층 퍼셉트론 형태의 DFN(Deep Feedforward Network)으로 통합한다. DFN은 교차‑오믹스 상호작용을 포착하고 최종 이진 클래스를 예측한다.
해석성 측면에서는 두 단계의 가중치 기반 중요도 추정 방식을 제안한다. 첫째, 입력‑첫 은닉층 가중치의 절대값 합을 통해 피처 수준 중요도 I_Fᵢⱼ 를 계산한다. 여기서 그래프 인접행렬의 존재 여부를 인디케이터 함수로 반영해, 실제 그래프에 연결된 피처만 기여하도록 설계했다. 둘째, 각 오믹스 그래프에 대한 임베딩을 DFN에 투입한 후, 학습된 DFN 가중치를 역전파해 오믹스 수준 기여도 R_I_Gᵢ 를 추출한다. 이렇게 얻은 두 종류의 중요도는 모델이 어떤 생물학적 마커와 어떤 데이터 유형에 의존하는지를 직관적으로 보여준다.
실험에서는 암, 심혈관 질환, 신경퇴행성 질환 등 세 가지 실제 데이터셋을 사용했으며, 클래스 비율이 1:10 이상으로 심각하게 불균형한 상황에서도 MOTGNN은 기존 GNN 기반 모델(MOGONET, MODILM, SUPREME 등)보다 F1 점수가 10‑50% 향상되었다. 정확도·ROC‑AUC·F1 모두 5‑10% 정도 상승했으며, 그래프가 희소(sparse)하게 유지돼 메모리·연산 비용도 크게 절감되었다. 또한, 모델이 제공한 상위 피처와 오믹스 기여도는 기존 생물학적 지식과 일치하거나 새로운 가설을 제시하는 데 활용될 수 있음을 사례 분석을 통해 보여준다.
한계점으로는 (1) 트리 기반 그래프가 피처 간의 비선형 복합 관계를 완전히 포착하지 못할 가능성, (2) XGBoost 파라미터와 트리 수에 따라 그래프 밀도와 성능이 민감하게 변할 수 있음, (3) 현재는 3가지 오믹스(메틸화, mRNA, miRNA)에만 적용했으며, 더 많은 데이터 유형(단백질, 메타볼로믹스 등)으로 확장할 때 그래프 통합 전략이 추가 연구가 필요하다는 점이다. 전반적으로 MOTGNN은 감독형 그래프 생성과 GNN 기반 표현 학습을 결합함으로써 멀티오믹스 질병 예측에서 정확도·해석성·클래스 불균형 대응성을 동시에 개선한 의미 있는 접근이라고 평가할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기