이중 그래프 신경망을 활용한 오믹스 기반 질병 분류와 바이오마커 탐색
초록
engGNN은 외부 생물학적 네트워크와 XGBoost 기반 데이터‑구동 그래프를 동시에 이용해 두 개의 그래프 임베딩을 생성하고, 이를 결합해 질병 분류 정확도를 높이며 특징 중요도 점수를 제공한다.
상세 분석
본 논문은 ‘대규모 p, 소규모 n’ 상황에서 오믹스 데이터의 고차원성을 극복하기 위해 두 종류의 그래프 정보를 융합한 새로운 GNN 프레임워크인 engGNN을 제안한다. 첫 번째 그래프는 STRING, KEGG 등 공개된 데이터베이스에서 추출한 무방향 외부 그래프로, 생물학적 기능 관계를 반영한다. 두 번째 그래프는 XGBoost 기반 트리 앙상블에서 각 트리의 분할 순서를 이용해 방향성을 부여한 생성 그래프이며, 이는 특정 예측 과제에 대한 데이터‑구동 상호작용을 포착한다. 두 그래프는 각각 GEDFN(Graph‑Embedded Deep Feedforward Network) 구조에 입력되어 첫 번째 은닉층에서 인접 행렬(자기루프 포함)을 가중치와 원소곱(Hadamard product) 형태로 마스킹한다. 이렇게 하면 그래프 이웃 간 정보 교환이 제한되면서도 biologically relevant 연결을 강조한다. 이후 완전 연결된 층을 거쳐 각각의 임베딩 H_Ge와 H_Gg를 얻고, 이를 단순 연결(concatenation)한 뒤 최종 DFN(Deep Feedforward Network)으로 분류기를 학습한다.
핵심 기술적 기여는 다음과 같다.
- 이중 그래프 설계: 외부와 생성 그래프를 동시에 활용함으로써 각각의 장점(신뢰성 높은 생물학적 지식 vs. 과제 특이적 데이터 패턴)을 보완한다.
- 방향성 통합: 기존 GNN 연구는 무방향 그래프에 국한되는 경우가 많았지만, 본 모델은 XGBoost 트리에서 파생된 방향성을 유지해 인과 관계에 가까운 정보를 학습한다.
- GEDFN 변형: 첫 번째 선형 변환에 ˜A(Adjacency) 마스크를 적용해 그래프 구조를 직접 반영하고, 이후 층은 전통적인 완전 연결 방식을 유지해 표현 학습의 유연성을 확보한다.
- 특징 중요도 계산: 연결 가중치와 그래프 마스크를 이용한 두 그래프별 중요도 I_F(Ge)와 I_F(Gg)를 합산해 최종 IF_j를 산출한다. 이는 기존의 단일 가중치 기반 해석보다 더 풍부한 생물학적 의미를 제공한다.
- 실험 설계: 합성 데이터 시뮬레이션과 실제 유전자 발현 데이터(다양한 암 및 대사 질환)에서 기존 SVM, Random Forest, 단일 그래프 GNN(DMGCN, forgeNet 등) 대비 AUC, 정확도, F1-score에서 일관된 우수성을 보였다. 또한, 상위 중요도 유전자들을 KEGG/Reactome 경로 분석에 투입했을 때, 알려진 질병 연관 경로가 높은 재현율로 도출되는 점을 통해 해석 가능성을 검증하였다.
한계점으로는 (i) 외부 그래프의 품질에 따라 성능 변동이 존재하며, (ii) XGBoost 트리 수와 깊이에 따라 생성 그래프의 복잡도가 급격히 증가해 메모리 부담이 커질 수 있다. 향후 연구에서는 그래프 가중치 학습을 통해 외부·생성 그래프를 동적으로 조정하거나, 멀티‑오믹스(전사·단백질·대사) 통합 그래프를 확장하는 방향이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기