뇌역학을 위한 파라미터 효율적 다중모달 기반 모델
초록
BrainSymphony는 fMRI 시계열과 확산 MRI 기반 구조 연결망을 동시에 처리할 수 있는 경량형 멀티모달 파운데이션 모델이다. 공간·시간 트랜스포머와 1D‑CNN으로 fMRI를 인코딩하고, 서명 그래프 트랜스포머로 구조 연결을 표현한다. 퍼시버 모듈이 각 스트림을 압축 임베딩으로 정제한 뒤, 적응형 게이팅을 통해 두 임베딩을 융합한다. 파라미터는 5.6 M개에 불과하지만, HCP‑Aging 데이터셋의 성별 분류·연령 예측 등에서 기존 대형 모델을 크게 앞선다. 또한, 약물 투여 데이터에서 주의 맵을 이용해 피실리시빈에 의한 피질 계층 재구성을 시각화하는 등 해석 가능성도 제공한다.
상세 분석
BrainSymphony는 신경과학적 도메인 지식을 아키텍처에 직접 반영함으로써 파라미터 효율성을 극대화한다. fMRI 입력은 450개의 ROI로 파싱되며, 공간 트랜스포머는 각 ROI 간 상관관계를, 시간 트랜스포머는 시계열의 장기 의존성을, 1D‑CNN은 짧은 구간의 로컬 패턴을 각각 포착한다. 이 세 스트림은 서로 다른 차원의 정보를 제공하므로, 퍼시버(Perceiver) 모듈이 교차‑어텐션을 통해 고차원 토큰들을 고정된 수의 라텐트에 압축한다. 구조 연결은 dMRI에서 추출된 가중치 행렬을 서명 그래프 트랜스포머에 입력함으로써, 양의 연결과 음의 연결을 동시에 학습하고, 엣지‑가중 어텐션을 통해 중요한 백본을 강조한다. 두 임베딩은 적응형 게이팅 메커니즘을 통해 동적으로 가중치가 부여되며, 이는 작업별(성별 분류 vs 연령 회귀) 혹은 개인별 차이에 따라 최적의 융합 비율을 자동으로 찾는다. 실험 결과는 세 가지 주요 포인트를 강조한다. 첫째, 멀티모달 융합이 단일 모달보다 일관되게 높은 정확도와 낮은 MSE를 달성한다. 둘째, 파라미터 수가 5.6 M개에 불과함에도 불구하고, 111 M(BrainLM)·85 M(Brain‑JEP‑A) 규모 모델을 크게 앞선다. 이는 과도한 파라미터가 반드시 성능 향상을 보장하지 않으며, 도메인‑특화 설계가 효율성을 동시에 확보한다는 증거다. 셋째, 퍼시버와 트랜스포머 기반 어텐션 맵을 활용해 피실리시빈 투여 후 피질 계층 간 연결 재구성을 시각화함으로써, 모델이 학습한 표현이 신경생리학적 변화를 반영한다는 해석 가능성을 제공한다. 이러한 설계는 데이터가 제한된 상황에서도 강건한 표현 학습을 가능하게 하며, 임상 현장이나 모바일 환경에서도 실시간 추론이 가능한 점이 큰 장점이다.
댓글 및 학술 토론
Loading comments...
의견 남기기