MEG 차세대 토큰 예측을 위한 대규모 자기회귀 모델
초록
본 논문은 500시간 이상, 수천 세션에 걸친 세 개의 대규모 MEG 데이터셋을 통합한 토큰 기반 자기회귀 모델을 제안한다. 수정된 SEANet‑style 벡터 양자화기(BrainTokMix)로 다채널 MEG를 압축하고, Qwen2.5‑VL 백본을 처음부터 학습시켜 1분 길이의 컨텍스트로부터 수분에 달하는 MEG 신호를 생성한다. 장기 생성 안정성 및 컨텍스트 의존성을 평가하기 위해 온‑매니폴드 드리프트와 프롬프트 교환 제어를 이용한 두 가지 테스트를 도입하였다.
상세 분석
이 연구는 MEG 신호를 고차원 연속 시계열에서 저차원 이산 토큰 스트림으로 변환하는 토크나이저 설계와, 변환된 토큰을 처리할 대규모 디코더‑전용 트랜스포머 아키텍처 두 축을 동시에 최적화한다는 점에서 혁신적이다. 기존 EEG/MEG 토크나이저가 채널별로 독립적인 코덱을 적용하거나 센서‑별 어텐션을 사용했지만, 저자는 SEANet 기반의 인코더‑디코더를 채널 혼합(convolutional mixing) 단계에 직접 통합함으로써 시간·공간 압축을 동시에 수행한다. 4개의 “neuro‑stream”으로 분할된 잠재 공간은 이후 Residual Vector Quantization(RVQ) 4단계로 양자화되어 총 400 토큰/초의 비율을 달성한다. 이는 100 Hz 샘플링률을 유지하면서도 17배 이상의 압축을 가능하게 하며, 트랜스포머가 긴 컨텍스트(수십 초~수분)를 효율적으로 다룰 수 있게 만든다.
트랜스포머 본체는 Qwen‑2.5‑VL 구조를 차용해 MRoPE(Multi‑axis Rotary Positional Embedding)를 적용, 시간(t), 공간(h), RVQ 레벨(q) 각각에 별도 회전 위치 임베딩을 부여한다. 이는 토큰 순서가 인위적으로 정의되더라도 각 축의 의미를 보존하도록 설계된 점이 주목할 만하다. 학습은 순수 next‑token cross‑entropy 손실만 사용해 메타데이터 없이 순수 토큰 기반 조건부 생성 능력을 검증한다.
평가에서는 두 가지 장기 생성 메트릭을 제시한다. 첫째, “온‑매니폴드 안정성”은 생성 전용 시퀀스의 통계적 드리프트를 실제 슬라이딩 윈도우 분포와 비교해 시간에 따른 분산 증가를 측정한다. 둘째, “조건부 특이성”은 동일 컨텍스트와 교환된 프롬프트(다른 세션/과제) 사이의 차이를 neurophysiologically grounded metric(예: 채널별 파워 스펙트럼, 상관계수)으로 정량화한다. 결과는 훈련 데이터셋(CamCAN, Omega)과는 독립적인 MOUS 데이터셋에서 모델이 여전히 안정적인 장기 신호를 생성하고, 프롬프트 교환 시 성능이 현저히 저하됨을 보여, 진정한 컨텍스트 의존성을 확보했음을 시사한다.
한계점으로는 현재 100 Hz 샘플링과 68채널 소스 공간에 국한된 점, 그리고 토큰화 단계에서 발생할 수 있는 정보 손실이 있다. 또한, 생성된 MEG 신호의 해석 가능성을 높이기 위한 downstream probing이나 뇌‑모델 기반 행동 예측 연구가 추가로 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기