포레그넷 트리 기반 앙상블로 특징 그래프를 학습하는 그래프 딥 뉴럴 네트워크

포레그넷은 랜덤 포레스트·GBM 등 트리 기반 앙상블 모델을 이용해 지도학습 방식으로 특징 그래프를 자동 생성하고, 이를 GEDFN 구조에 삽입해 고차원 omics 데이터의 n≪p 문제를 완화한다. 합성 데이터와 유방암 실험에서 기존 GEDFN·RF·SVM 등을 능가하는 분류 정확도와 의미 있는 특징 선택을 보여준다.

저자: Yunchuan Kong, Tianwei Yu

포레그넷 트리 기반 앙상블로 특징 그래프를 학습하는 그래프 딥 뉴럴 네트워크
본 논문은 고차원 omics 데이터, 특히 유전자 발현 데이터에서 샘플 수가 특징 수에 비해 현저히 적은 “n≪p” 문제를 해결하기 위한 새로운 딥러닝 기반 분류 모델인 forgeNet을 제안한다. 기존의 그래프‑임베디드 딥 피드포워드 네트워크(GEDFN)는 외부에서 제공되는 유전자 네트워크(무방향 그래프)를 첫 은닉층에 결합해 가중치를 희소하게 만들고, 이를 통해 모델 복잡도를 낮추면서도 높은 예측 성능을 달성했다. 그러나 실제 임상 연구에서는 특정 질환에 최적화된 유전자 네트워크가 존재하지 않을 경우, 사전 그래프의 오분류가 모델 성능을 저하시킬 위험이 있다. forgeNet은 이러한 한계를 극복하고자, 외부 그래프에 의존하지 않고 데이터 자체에서 특징 간 관계를 학습한다. 구체적으로는 두 단계로 구성된다. 첫 단계에서는 Random Forest(RF) 혹은 Gradient Boosting Machine(GBM)과 같은 트리 기반 앙상블 모델을 학습시킨 뒤, 각 트리의 분할 과정에서 사용된 변수와 그 순서를 추출한다. 트리의 분할은 변수 A가 변수 B보다 먼저 혹은 더 큰 정보량을 제공한다는 방향성을 내포하므로, 이를 유향 엣지(A→B)로 변환한다. 모든 트리에서 얻은 엣지를 합쳐 전체 특징 그래프 G(V,E)를 만든다. 이 과정에서 실제로 분할에 사용된 변수만이 그래프에 포함되므로 차원 축소가 자연스럽게 이루어지며, |V|

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기