뇌파에서 이미지로: 자가 지도 학습을 통한 fMRI 기반 자연 이미지 재구성
초록
본 논문은 제한된 라벨링 데이터만으로도 fMRI와 이미지 사이의 매핑을 학습하기 위해, 이미지‑→fMRI 인코더와 fMRI‑→이미지 디코더를 쌍으로 구성하고, 이들을 앞뒤로 연결한 자기지도(self‑supervision) 방식을 제안한다. 라벨이 없는 자연 이미지와 라벨이 없는 테스트 fMRI 데이터를 활용해 각각 이미지‑→이미지와 fMRI‑→fMRI 재구성 손실을 추가함으로써, 디코더를 테스트 fMRI의 통계에 맞게 적응시켜 재구성 품질을 크게 향상시킨다.
상세 분석
이 연구는 fMRI‑이미지 재구성 문제의 핵심 난제인 “라벨링된 이미지‑fMRI 쌍의 부족”을 해결하기 위해 두 개의 신경망, 즉 이미지 → fMRI 인코더 E와 fMRI → 이미지 디코더 D를 설계한다. 인코더 E는 사전 학습된 AlexNet conv1 가중치를 초기화로 사용하고, 추가적인 3‑layer 컨볼루션 블록을 거쳐 최종적으로 뇌의 시각 피질에 대응하는 voxel 벡터를 출력한다. 디코더 D는 fMRI 벡터를 14×14×64 형태의 특성 맵으로 변환한 뒤, 3단계 업샘플링‑컨볼루션‑배치 정규화 블록을 통해 112×112 RGB 이미지로 복원한다.
학습은 두 단계로 진행된다. 첫 번째 단계에서는 라벨이 있는 이미지‑fMRI 쌍만을 이용해 E를 supervised 방식으로 학습한다. 손실 L_r은 MSE와 코사인 유사도의 가중합(α = 0.9)으로 정의되어, voxel 공간에서의 정밀한 재현을 촉진한다. 또한, 이미지 입력에 무작위 중심 이동을 적용해 피험자의 시선 고정 불확실성을 보정한다.
두 번째 단계에서는 사전 학습된 E를 고정하고, 디코더 D를 동시에 세 종류의 데이터로 학습한다. (i) 라벨이 있는 이미지‑fMRI 쌍에 대해 L_D = L_s( D(r), s )를 적용하는 supervised 손실; 여기서 L_s는 RGB 픽셀 차이, VGG19 초·중간 레이어 특징 차이, 그리고 총 변동(TV) 정규화의 합이다. (ii) 라벨이 없는 자연 이미지에 대해 E‑D 연쇄를 수행해 이미지‑→이미지 재구성 손실 L_ED = L_s( D(E(s)), s )를 부여함으로써, 디코더가 자연 이미지 통계에 적응하도록 만든다. (iii) 라벨이 없는 테스트 fMRI에 대해 D‑E 연쇄를 수행해 fMRI‑→fMRI 재구성 손실 L_DE = L_r( E(D(r)), r )를 적용한다. 특히 테스트 fMRI 자체를 학습에 활용함으로써, 디코더가 테스트 도메인의 SNR·분포 차이에 자동으로 적응한다는 점이 혁신적이다.
전체 배치 구성은 60 % 라벨 쌍, 20 % 라벨 없는 이미지, 20 % 라벨 없는 테스트 fMRI로 비율을 맞추어, 각 손실이 균형 있게 최적화되도록 설계되었다. 최적화는 첫 단계에서 SGD(learning rate 0.1, 80 epoch), 두 번째 단계에서 Adam(1e‑3, 150 epoch)으로 진행되며, 단일 Tesla V100 GPU에서 전체 학습이 약 15분 내에 완료된다.
실험은 두 개의 공개 fMRI 데이터셋(‘fMRI‑on‑ImageNet’와 ‘vim‑1’)에 대해 수행되었으며, 자기지도 학습을 적용한 모델이 기존 최첨단 방법보다 시각적 품질과 정량적 지표(예: SSIM, 픽셀‑레벨 MSE) 모두에서 우수함을 보였다. 특히 테스트 fMRI에 대한 L_DE 학습이 재구성 정확도를 가장 크게 끌어올렸으며, 라벨 없는 자연 이미지 학습은 보조적인 향상 효과를 제공한다.
이 논문의 주요 기여는 (1) 라벨이 없는 fMRI 데이터를 활용한 최초의 자기지도 학습 프레임워크 제시, (2) 인코더‑디코더 구조를 이용해 이미지와 fMRI 양쪽 모두에서 순환 재구성 손실을 정의함으로써 도메인 적응을 가능하게 함, (3) 제한된 라벨 데이터 환경에서도 두 개의 서로 다른 fMRI 데이터셋에 대해 경쟁력 있는 재구성 성능을 달성한 점이다. 한계점으로는 현재 voxel‑단위 정밀도가 낮은 fMRI 특성에 크게 의존한다는 점과, 테스트 fMRI가 충분히 많은 경우에만 자기지도 학습 효과가 두드러진다는 점을 들 수 있다. 향후 연구에서는 고해상도 fMRI·MEG·EEG 등 다중 모달리티를 결합하거나, 메타‑러닝 기반의 빠른 적응 메커니즘을 도입해 더욱 일반화된 뇌‑이미지 디코더를 구축할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기