전역 뇌 영상 학습을 위한 무아틀라스 fMRI 모델
초록
Omni-fMRI는 사전 정의된 뇌 영역 파셜레이션을 사용하지 않고, voxel‑level fMRI 신호를 직접 입력으로 하는 자기지도 기반 기초 모델이다. 동적 패치 토크나이제이션과 이중‑경로 다중‑스케일 임베딩, 스케일 인식 마스크드 오토인코더를 도입해 49 497개의 세션(9개 데이터셋)에서 효율적으로 학습한다. 11개 데이터셋·16개 과제에 대한 종합 벤치마크에서 기존 ROI‑기반 모델을 일관적으로 능가한다.
상세 분석
Omni-fMRI는 기존 fMRI 기초 모델이 ROI 혹은 그래프 기반 파셜레이션에 의존해 발생하는 해상도 손실과 아틀라스 편향을 근본적으로 제거한다. 핵심 기술은 (1) 동적 패치 토크나이제이션으로, 시간‑집계된 분산(σ²) 값을 복잡도 지표로 사용해 배경은 평균 강도 임계값 이하이면 완전히 제외하고, 복잡도가 낮은 영역은 큰 패치(코스 패치)로, 복잡도가 높은 영역은 재귀적으로 세분화해 작은 패치(파인 패치)로 전환한다. 이 과정에서 토큰 수를 평균 14 000개에서 4.3 K로 감소시켜 전역 self‑attention을 적용할 수 있게 한다.
(2) 이중‑경로 다중‑스케일 임베딩은 서로 다른 해상도의 토큰을 동일한 잠재 공간에 매핑한다. 기본 해상도 패치는 3D Conv 로 직접 토큰화하고, 큰 패치는 다운샘플링된 저주파 표현 ϕ(P↓)와 서브‑패치들의 컨볼루션 집합을 Zero‑MLP(초기 가중치 0)와 합산한다. Zero‑MLP는 학습 초기에 저주파 정보만 사용하도록 하여 커리큘럼 학습 효과를 제공하고, 점진적으로 고주파 세부 정보를 통합한다.
(3) 스케일‑인식 마스크드 오토인코더는 MAE 프레임워크를 확장한다. 디코더 입력에 스케일 임베딩 eₛ를 더해 토큰의 공간 해상도를 명시하고, 각 스케일별 별도 재구성 헤드 ψₛ를 두어 손실을 토큰 수와 패치 부피(Vₛ)로 정규화한다. 이렇게 하면 큰 패치가 손실을 과도하게 지배하는 현상을 방지하고, 모든 스케일에서 균형 잡힌 학습이 이루어진다.
학습 효율성 측면에서, 동적 패치와 스케일‑인식 손실 덕분에 동일한 하드웨어에서 기존 NeuroStorm 대비 2배 이상 빠른 수렴을 보이며, 전역 self‑attention을 활용해 장거리 기능 연결성을 직접 모델링한다.
실험에서는 49 497개의 세션(UK Biobank, HCP 등 9개 데이터셋)으로 사전 학습한 뒤, 11개 데이터셋·16개 과제(휴식‑상태 네트워크, 작업 기반 인지, 인구통계·임상 예측 등)에서 선형 프로빙과 파인‑튜닝을 수행했다. Omni-fMRI는 모든 과제에서 평균 3~7%의 정확도·AUC 향상을 기록했으며, 특히 파인‑튜닝 없이도 기존 모델의 파인‑튜닝 성능을 능가하는 결과를 보였다. 또한, 코드·로그·테스트 샘플 ID를 공개해 재현성을 확보했다.
이 논문은 fMRI 표현 학습에서 “아틀라스‑프리” 접근이 가능함을 증명하고, 동적 토크나이제이션과 스케일‑인식 학습이 대규모 뇌 영상 데이터에 적용될 수 있는 실용적인 설계를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기