그래프 신경망 기반 작업 fMRI 바이오마커 해석 프레임워크

본 논문은 작업 fMRI 데이터를 그래프로 변환한 뒤, 인덕티브 그래프 신경망(GNN)으로 자폐 스펙트럼 장애(ASD)와 정상 대조군을 구분하고, 그래프 구조와 노드·엣지 특성을 이용해 중요한 뇌 영역과 서브그래프를 바이오마커로 식별한다. 기존의 특징 마스킹 방식이 데이터 분포를 왜곡할 위험을 피하기 위해 2단계 파이프라인을 제안하며, GNN 기반 중요도 점수를 랜덤 포레스트와 비교해 해석 가능성과 정확도에서 우수함을 보인다. 다양한 뇌 파라셀…

저자: Xiaoxiao Li, Nicha C. Dvornek, Yuan Zhou

그래프 신경망 기반 작업 fMRI 바이오마커 해석 프레임워크
본 논문은 자폐 스펙트럼 장애(ASD)의 신경생물학적 바이오마커를 찾기 위해 작업 기반 기능적 MRI(task‑fMRI)를 그래프 형태로 변환하고, 인덕티브 그래프 신경망(GNN)으로 분류와 해석을 동시에 수행하는 2단계 파이프라인을 제안한다. 1. **배경 및 필요성** ASD는 뇌 구조·기능의 복합적 변화를 동반하므로, fMRI를 이용한 기능적 연결망 분석이 활발히 연구되고 있다. 기존 방법은 사전 정의된 연결 지표나 통계적 특징에 의존해 바이오마커를 도출했지만, 특징 선택이 주관적이며 해석이 제한적이다. 그래프 신경망은 노드와 엣지의 복합적 관계를 학습할 수 있어 뇌 네트워크 분석에 적합하지만, GNN의 ‘블랙박스’ 특성 때문에 중요한 영역을 식별하기 어려웠다. 또한, 특징을 마스킹하거나 대체하는 기존 해석 기법은 데이터 분포를 왜곡해 신뢰성을 떨어뜨린다. 2. **그래프 구축** T1 구조 MRI를 기반으로 뇌를 N개의 ROI(Destrieux 148, Desikan‑Killiany 등)로 파셀화하고, 각 ROI를 노드로 정의한다. 노드 특성은 10차원으로, 연결도, GLM 회귀계수(β1~β4), tfMRI 평균·표준편차, ROI 좌표 등을 포함한다. Box‑Cox 변환을 적용해 정규성을 확보한다. 엣지는 피어슨 상관, 부분 상관, 그리고 기하학적 거리 기반 가중치(exp(−r_ij/10))를 결합한 3차원 속성을 갖는다. 부분 상관값 상위 5%만 남겨 희소 그래프를 만든다. 3. **GNN 분류 모델** 제안된 GNN은 NNconv 기반 메시지 패싱 레이어를 사용한다. 각 레이어에서 노드 i의 임베딩 v_i^{(l)}는 이웃 노드와 엣지 속성을 MLP를 통해 변환한 행렬과 곱해 집계한다. 활성화 함수는 ReLU이며, 차원은 10→16→8로 감소한다. 풀링 레이어는 학습 가능한 투사 벡터 w^{(l)}를 통해 중요도가 낮은 노드를 제거하고, L2 정규화 손실 λ∑_l (‖w^{(l)}‖_2−1)^2를 추가해 식별성을 보장한다. Readout 단계에서는 평균 풀링과 최대 풀링을 결합해 고정 길이 그래프 임베딩을 만든 뒤, MLP로 ASD/HC 확률을 출력한다. 학습은 교차 엔트로피와 정규화 손실을 합한 목표함수로, Adam 옵티마이저(초기 학습률 0.001, 300 epoch)로 수행한다. 4. **해석 방법** 특징 마스킹 대신, 전체 그래프를 커뮤니티(서브그래프)로 클러스터링한다. 이를 위해 모든 그래프의 부분 상관 행렬을 3차원 텐서 τ(N×N×S)로 쌓고, 비음성적 텐서 분해(NPAF)로 R개의 커뮤니티를 추출한다. 각 서브그래프 G_{sj}에 대해 사전 학습된 GNN을 그대로 적용해 클래스 확률 p(c|G_{sj})를 얻고, 로그오즈 비율에 tanh 함수를 적용해 Evidence for Correct Class(ECC) 를 계산한다. ECC는 해당 서브그래프가 현재 라벨을 얼마나 지지하는지를 나타내며, 노드 중요도는 해당 서브그래프에 포함된 노드들의 ECC 평균으로 정의한다. 이 방식은 특징을 직접 변형하지 않으면서 모델 반응을 기반으로 중요도를 추정한다는 장점이 있다. 5. **실험 설정** 데이터는 Yale Child Study Center에서 수집한 75명의 ASD 아동과 43명의 연령·IQ 매치된 정상 대조군이다. 각 피험자는 “biopoint” 과제(fMRI)를 수행했으며, 1/3 voxel을 부트스트랩으로 추출해 ROI 평균 시계열을 얻었다. 데이터 증강을 통해 ASD는 10배, HC는 20배 확대해 총 750 ASD 그래프와 860 HC 그래프를 확보했다. 5‑fold 교차 검증을 수행했으며, 각 폴드에서 4개를 학습, 1개를 테스트에 사용했다. 6. **분류 성능** Destrieux atlas(148 ROI) 기준, 랜덤 포레스트(RF)와 GNN을 비교했다. RF는 노드(V), 엣지(E), 결합(V+E) 입력에 대해 각각 71%, 66%, 68% 정확도를 보였으며, GNN은 풀링 비율 r=0.3,0.5,0.8에 따라 67%, 76%, 73% 정확도를 기록했다. 최적 r=0.5 모델이 83.6% 정확도와 0.79 F‑score를 달성해 가장 높은 성능을 보였다. 7. **바이오마커 해석** RF의 평균 Gini 감소 기반 중요도와 GNN의 ECC 기반 중요도를 비교했다. 상위 30개 ROI 중 9개가 두 방법에서 겹쳤으며, GNN은 β1(생물학적 움직임 파라미터)을 가장 중요한 노드 속성으로, tfMRI 평균·표준편차와 좌표도 고르게 높은 점수를 부여했다. 서브그래프 수준에서는 상위 2개 커뮤니티가 사회적 행동과 연관된 기능적 키워드(‘social cognition’, ‘theory of mind’ 등)와 매핑되었으며, 해당 서브그래프만을 사용해 재학습했을 때 78.9% 정확도로 전체 그래프와 비슷한 성능을 보였다. 8. **강인성 검증** 다른 파셀레이션(Destrieux vs. Desikan‑Killiany)과 클러스터 수(R=10,20,30) 변화에 대해 동일한 파이프라인을 적용했다. 모든 경우에서 orbitofrontal cortex와 ventromedial prefrontal cortex가 일관되게 상위 바이오마커로 선정되었으며, Neurosynth를 통한 기능 해석에서도 사회적 동기·감정 조절과 관련된 영역임이 확인되었다. 9. **결론 및 향후 연구** 본 연구는 GNN을 활용한 그래프 기반 fMRI 분석이 ASD 분류 정확도를 향상시키고, 기존 마스킹 기반 해석의 한계를 극복해 신뢰성 있는 바이오마커를 도출함을 입증했다. 향후에는 서브그래프 크기와 커뮤니티 수에 대한 최적화, 휴식‑fMRI 및 다른 질환(예: 뇌종양) 데이터에 대한 적용, 그리고 그래프 정의 방식을 다양화하는 연구가 필요하다. 제안된 파이프라인은 다양한 그래프 기반 특징 중요도 분석 문제에 일반화 가능하다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기