뇌를 하나로 전자기·대사 신호를 통합한 대형 언어 모델 기반 비침습 뇌 디코딩

NOBEL은 EEG·MEG와 fMRI라는 서로 다른 주파수·공간 특성을 가진 비침습 뇌 기록을 하나의 대형 언어 모델(L​LM) 안에서 통합·정렬한다. 통합 인코더와 fMRI 전용 듀얼‑패스 구조를 통해 전자기와 대사 신호를 공유 토큰 공간에 매핑하고, 외부 시각·청각 자극을 함께 입력함으로써 다중 모달 디코딩 정확도를 기존 단일 모달보다 크게 향상시킨다.

저자: Changli Tang, Shurui Li, Junliang Wang

뇌를 하나로 전자기·대사 신호를 통합한 대형 언어 모델 기반 비침습 뇌 디코딩
본 논문은 비침습 뇌 기록을 통합적으로 해석하기 위한 새로운 프레임워크 NOBEL을 제안한다. 인간 뇌는 전자기적 활동(EEG/MEG)과 대사적 혈류 변화(fMRI)라는 두 가지 상이한 물리적 현상으로 측정된다. 전자는 밀리초 수준의 시간 해상도를 제공하지만 공간 해상도가 낮고, 후자는 고해상도 공간 정보를 제공하지만 수초 수준의 지연을 가진다. 기존 연구들은 각각의 모달리티에 특화된 모델을 개발했으며, EEG/MEG에서는 CNN‑Transformer, Contrastive Learning, Vector‑Quantized Spectrum Prediction 등 다양한 자기지도 학습 기법이 활용되었다. fMRI 분야에서는 ROI 기반 그래프 신경망, 4D 비디오 트랜스포머, NeuroSTORM 같은 voxel‑level 마스크드 오토인코더가 주류를 이루었다. 그러나 이러한 모델들은 서로 다른 데이터 형식과 전처리 파이프라인 때문에 통합이 어려웠으며, 외부 자극 정보를 충분히 활용하지 못했다. NOBEL은 이러한 문제점을 해결하기 위해 세 가지 핵심 설계를 도입한다. 첫째, **통합 인코더**를 통해 EEG와 MEG를 하나의 EMEG 인코더(BrainOmni)로 묶어 전자기 신호를 동일한 토큰 형태로 변환한다. 둘째, **듀얼‑패스 fMRI 인코더**를 설계한다. 경로 A는 NeuroSTORM 기반 4D voxel 인코더(E​vox)를 사용해 전반적인 생리학적 메타 정보를 추출하고, 경로 B는 GLM 베타 가중치를 입력으로 하는 task‑specific 인코더(E​β_k)를 통해 자극‑연관 의미 정보를 캡처한다. 각각의 출력은 3‑layer MLP Align​er를 거쳐 LLM 입력 토큰(H​vox, H​β_k)으로 정렬된다. 셋째, **Stimulus‑aware 인코딩**을 도입해 이미지, 비디오, 오디오 등 외부 자극을 별도 인코더(E​stim)로 처리하고, 이를 LLM 입력 시퀀스에 포함시켜 뇌 신호와 자극을 동시에 고려한다. 전체 입력 시퀀스는 사용자 프롬프트와 각 모달리티 토큰을 순차적으로 연결한 형태이며, 사전 학습된 멀티모달 LLM에 LoRA(저‑랭크 어댑테이션)를 적용해 파라미터를 효율적으로 튜닝한다. 이 과정에서 LLM은 뇌‑자극 정렬 토큰을 자연어 형태로 해석·생성함으로써, “이 뇌 활동이 어떤 이미지와 연관되는가”, “특정 청각 자극을 듣고 있는가”와 같은 질문에 답변한다. 실험에서는 다음과 같은 설정을 사용했다. (1) **단일 모달 성능**: EEG/MEG 벤치마크(예: SEED, OpenMEG)와 fMRI 베타‑weight 기반 시각 디코딩(NSD, HAD)에서 기존 최첨단 모델 대비 1‑4%p 향상. (2) **멀티모달 융합**: EEG+fMRI, MEG+fMRI를 동시에 입력했을 때 정확도가 각각 3‑7%p 상승, 특히 시각 의미 복원에서 Top‑5 정확도가 85%를 초과. (3) **Stimulus‑aware 태스크**: 외부 이미지/비디오를 입력으로 제공했을 때, 모델이 “현재 피험자가 해당 자극을 보고 있는지”를 92% 정확도로 판별, 이는 기존 모델이 제공하지 못한 인과 검증 능력이다. 논문의 주요 기여는 (i) 전자기·대사 신호를 하나의 의미 공간에 정렬함으로써 “뇌‑신호 전반을 하나의 모델로 해석”하는 첫 시도, (ii) fMRI의 정적·동적 정보를 명시적으로 분리하는 듀얼‑패스 설계, (iii) 외부 자극을 토큰화해 LLM과 결합함으로써 stimulus‑aware 디코딩을 구현한 점이다. 한계점으로는 대규모 멀티모달 사전학습 데이터가 아직 부족해 사전학습 단계에서의 일반화가 제한적이며, fMRI의 4D voxel 처리 비용이 높아 실시간 응용에 제약이 있다. 향후 연구에서는 (a) 다양한 감각(촉각, 전위) 및 행동(운동) 데이터를 추가해 전인적 뇌‑컴퓨터 인터페이스를 구축, (b) 경량화된 voxel 인코더와 효율적인 토큰화 기법을 개발해 실시간 디코딩을 가능하게 하고, (c) 대규모 공개 멀티모달 뇌 데이터셋을 구축해 사전학습을 확대함으로써 모델의 확장성을 높이는 방향을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기