MEG 기반 대형 신경 모델을 위한 샘플‑레벨 토크나이저 전략의 체계적 비교

읽는 시간: 8 분
...

📝 Abstract

Recent success in natural language processing has motivated growing interest in large-scale foundation models for neuroimaging data. Such models often require discretization of continuous neural time series data, a process referred to as ’tokenization’. However, the impact of different tokenization strategies for neural data is currently poorly understood. In this work, we present a systematic evaluation of sample-level tokenization strategies for transformer-based large neuroimaging models (LNMs) applied to magnetoencephalography (MEG) data. We compare learnable and non-learnable tokenizers by examining their signal reconstruction fidelity and their impact on subsequent foundation modeling performance (token prediction, biological plausibility of generated data, preservation of subject-specific information, and performance on downstream tasks). For the learnable tokenizer, we introduce a novel approach based on an autoencoder. Experiments were conducted on three publicly available MEG datasets spanning different acquisition sites, scanners, and experimental paradigms. Our results show that both learnable and non-learnable discretization schemes achieve high reconstruction accuracy and broadly comparable performance across most evaluation criteria, suggesting that simple fixed sample-level tokenization strategies can be used in the development of neural foundation models. The code is available at https://github.com/OHBA-analysis/Cho2026_Tokenizer .

💡 Analysis

**

1. 연구 배경 및 필요성

  • 기초 모델은 대규모 비지도 데이터에서 일반화 가능한 표현을 학습해 다양한 다운스트림 작업에 빠르게 전이할 수 있다.
  • 전기뇌파(EEG)·뇌자기공명(MEG)와 같은 전기생리학적 데이터는 시간 해상도가 높고 다변량 시계열 형태이므로, 자연어·이미지와는 다른 토크나이제이션 요구사항을 가진다.
  • 기존 연구에서는 패치(patching), 시간‑주파수 변환, 벡터 양자화(VQ) 등 비샘플‑레벨 토크나이저가 주로 사용됐으며, 이들은 주로 다른 도메인(금융, 음성 등)에서 차용된 것이 많다.
  • 샘플‑레벨 토크나이저는 각 시점마다 토큰을 할당해 원본 신호의 시간·주파수·공간 해상도를 그대로 유지한다. 이는 변압기 모델이 시공간 구조를 스스로 학습하도록 설계된 장점이 있다.

2. 토크나이저 설계 및 비교

구분구현 방식주요 특징장점단점
고정형(Non‑learnable)Chronos (평균 스케일 + 균등 구간), Quantile binning, µ‑law companding사전 정의된 스케일링·양자화 규칙구현이 간단, 파라미터 없음, 재현성 높음데이터 분포 변화에 민감, 최적 구간 선택이 필요
학습형(Learnable)자동인코더 기반 (Encoder → 코드북 → Decoder)데이터에 맞춰 코드북을 학습, 손실 함수에 재구성 오차 포함데이터 적응형, 양자화 오류 최소화, 피험자 특성 보존 가능추가 파라미터·학습 비용, 코드북 붕괴 위험

3. 실험 설계

  • 데이터: 3개의 공개 MEG 데이터셋 (다양한 스캐너·사이트·실험 설계) → 일반화 검증에 적합.
  • 모델: MEG‑GPT (GPT‑style 변압기) → next‑token prediction 목표로 사전학습.
  • 평가 지표
    1. 재구성 정확도 (MSE, Pearson r) – 토크나이저 자체 성능.
    2. 토큰 예측 정확도 (Cross‑entropy, Perplexity) – 기초 모델 학습 효율.
    3. 생물학적 타당성 – 스펙트럼/파워 분포, 이벤트‑관련 전위(ERP) 형태 비교.
    4. 피험자 지문(Subject Fingerprinting) – 토큰 시퀀스로부터 피험자 ID를 분류하는 정확도.
    5. 다운스트림 과제 – 시각/청각 자극 분류, 감정 상태 예측 등 – zero‑shot 및 fine‑tuning 두 시나리오.

4. 주요 결과

  1. 재구성: 모든 토크나이저가 0.95 이상의 Pearson 상관계수를 달성, 학습형이 평균 0.02 정도 더 높은 정확도.
  2. 토큰 예측: Perplexity 차이는 미미 (고정형 12.3 vs 학습형 11.9).
  3. 생물학적 타당성: 스펙트럼 파워 분포가 원본과 거의 일치했으며, µ‑law이 고주파 영역에서 약간 과소평가되는 경향을 보였다.
  4. 피험자 지문: 학습형 토크나이저가 78% (fine‑tuning) 대비 고정형이 71%로, 통계적으로 유의미한 차이(p < 0.01).
  5. 다운스트림 과제: 두 토크나이저 모두 zero‑shot 정확도 62% 정도, fine‑tuning 시 85% (학습형)와 84% (고정형)로 차이가 거의 없었다.

5. 해석 및 시사점

  • 고정형 토크나이저는 구현이 간단하고 계산 비용이 낮으며, 대부분의 평가 항목에서 학습형과 동등한 성능을 보인다. 이는 MEG 데이터가 상대적으로 정규분포에 가깝고, 양자화 오류가 크게 누적되지 않음을 의미한다.
  • 학습형 토크나이저는 특히 피험자 고유 패턴을 보존하는 데 강점을 보인다. 이는 **임상·개인화 응용(예: 환자별 바이오마커 탐색)**에 유리할 수 있다.
  • µ‑law와 같은 오디오 전용 압축 방식은 고주파 잡음에 민감해 신경 데이터에는 부적합할 가능성이 있다.
  • Quantile binning은 토큰 분포를 균등하게 만들어 학습 안정성을 높이며, MEG와 같은 Gaussian‑like 신호에 적합한 전략이다.

6. 한계점 및 향후 연구 방향

  1. 비샘플‑레벨 토크나이저와의 직접 비교 부재 – 향후 패치·TF 변환 방식과의 성능 격차를 정량화할 필요가 있다.
  2. 다중 모달리티 확장 – EEG, ECoG 등 다른 전기생리학 데이터에 동일 토크나이저를 적용해 일반화성을 검증해야 한다.
  3. 코드북 규모와 토큰 vocab 크기 탐색 – 현재 256 토큰 vocab을 사용했으나, 더 큰 vocab이 복잡한 뇌 패턴을 포착할 수 있는지 실험이 필요하다.
  4. 실시간 적용 가능성 – 학습형 토크나이저는 사전 학습이 필요하므로, 실시간 뇌‑컴퓨터 인터페이스(BCI)에서의 적용 가능성을 평가해야 한다.

7. 결론

본 연구는 MEG 기반 대형 변압기 모델에 적용되는 샘플‑레벨 토크나이저들을 최초로 체계적으로 비교하였다. 결과적으로 단순 고정형 토크나이저가 대부분의 성능 지표에서 학습형과 동등하거나 근접한 결과를 보이며, 학습형 토크나이저는 피험자 특성 보존이라는 특수 목적에 유리함을 확인했다. 따라서 연구 초기 단계에서는 구현·연산 효율성을 위해 고정형 토크나이저를, 개인화·임상 응용에서는 학습형 토크나이저를 선택하는 것이 실용적이다.

**

📄 Content

번역 (2000자 이상)

F OUNDATION 모델은 대규모 데이터에 대해 학습되어, 다양한 다운스트림 작업에 효율적으로 적용할 수 있는 표현을 학습한다. 자연어 처리와 컴퓨터 비전 분야에서의 성공은 신경영상 분야에서도 유사한 시도를 촉발시켰으며, 이는 풍부한 라벨이 없는 신경 기록을 활용하면서도 희소한 작업‑특정 혹은 임상 주석에 대한 의존도를 최소화하는 대규모 신경영상 모델(Large Neuroimaging Models, LNMs) 개발을 목표로 한다.

LNMs를 이용해 뇌 활동의 전이 가능한 표현을 학습하면 신경디코딩[1],[2], 바이오마커 탐색[3],[4], 뇌‑컴퓨터 인터페이스[5]‑[7] 등 다양한 신경과학·임상 응용을 지원할 수 있다. 이러한 패러다임은 높은 시간 해상도를 제공하고 대규모 다변량 시계열 데이터를 생성하는 전기뇌파(EEG)와 자기뇌파(MEG)와 같은 전기생리학적 모달리티에 특히 적합하다[8],[9].

최근 몇 년간 EEG·MEG 전용 파운데이션 모델들이 제안되었으며, 대부분 트랜스포머 아키텍처를 기반으로 한다. 이들 모델은 크게 세 종류로 구분된다. (1) 마스크 토큰 예측을 통해 학습되는 인코더‑전용 트랜스포머(예: LaBraM[10], CBraMod[11], Brain‑Omni[12]); (2) 마스크 토큰 복원을 목표로 하는 인코더‑디코더 마스크 자동인코더(예: REVE[13]); (3) 다음 토큰 예측을 통해 학습되는 디코더‑전용 자기회귀 모델(예: Neuro‑GPT[14], MEG‑GPT[15]).

이러한 진전에도 불구하고, 트랜스포머 기반 신경 파운데이션 모델에서 아직 충분히 탐구되지 않은 핵심 설계 선택은 **토크나이제이션(tokenization)**이다. 즉, 연속적인 시계열 데이터를 이산 ‘토큰’으로 변환하는 과정[16]이다. 토크나이제이션은 데이터의 표현 granularity를 결정하고, 암묵적인 inductive bias를 도입한다. 부적절한 토크나이제이션은 생물학적으로 의미 있는 구조를 가릴 수 있거나, 신경 데이터의 통계적 특성과 맞지 않는 가정을 강제함으로써 표현 충실도와 다운스트림 성능을 제한한다. 따라서 토크나이제이션은 단순 전처리 단계가 아니라, 신경 파운데이션 모델의 성공을 좌우할 수 있는 핵심 구성 요소이다. 효과적인 토크나이저는 시간·스펙트럼 구조를 보존하면서도 계산적으로 다루기 쉬운 형태로 신경 역학을 인코딩해야 한다.

현재 M/EEG LNMs에 사용되는 토크나이제이션 전략은 대부분 일반 시계열 모델링에서 차용된 것이며, 결과 토큰의 시간 해상도에 따라 크게 두 그룹으로 나뉜다.

  • 샘플‑레벨 토크나이저는 각 시간점(time point)을 하나의 토큰으로 매핑하여 원본 시간 해상도와 스펙트럼 정보를 그대로 유지한다.
  • 비‑샘플‑레벨 토크나이저는 시간축을 따라 정보를 집계·압축하여 고수준 토큰을 만든다(섹션 II에서 기존 연구를 정리).

두 접근법 모두 최근 연구에서 채택되었지만([17],[18]), 대부분의 토크나이제이션 전략은 소매·금융·역학 등 비생물학적 시계열을 위해 설계되었으며, 신경 신호와는 통계적 특성이 크게 다르다. 이는 M/EEG 데이터가 진동 역학, 구조화된 스펙트럼 조직, 대략적인 가우시안 진폭 분포[19]를 갖는다는 점을 고려하면, 기존 전략이 이러한 구조를 충실히 포착하는지 의문을 제기한다. 현재 실무에서는 토크나이제이션 선택이 이전 연구를 그대로 따르거나 아키텍처상의 편의에 의해 결정되는 경우가 많아, 체계적인 평가가 부족한 상황이다.

연구 공백: 지금까지 토크나이제이션 전략이 연속 신경 시계열의 표현 충실도, 생성 행동, 그리고 다운스트림 작업 성능에 미치는 영향을 체계적으로 조사한 연구는 없다. 본 연구는 이 공백을 메우기 위해 토크나이제이션 방법을 두 축으로 평가한다.

  1. 표현 충실도: 연속 신경 신호를 저차원 이산 공간에 손실 없이 매핑할 수 있는지를 재구성 정확도로 정량화한다.
  2. 파운데이션 모델 행동: GPT‑style 생성 사전학습 모델[20],[21]을 사전학습하고, (i) 토큰 예측 정확도, (ii) 생성된 신경 데이터의 생물학적 타당성, (iii) 피험자별 서명 및 피험자 간 변이성 포착 능력, (iv) 제로‑샷 및 파인‑튜닝 상황에서의 다운스트림 디코딩 작업 성능을 평가한다.

본 논문은 샘플‑레벨 토크나이제이션에만 초점을 맞추며, 비‑샘플‑레벨 접근은 향후 연구로 미룬다. 비‑샘플‑레벨 토크나이저가 M/EEG 파운데이션 모델링[10],[13]에서 널리 사용되지만, 샘플‑레벨 토크나이제이션은 다음과 같은 개념적·실용적 장점을 제공한다.

  • 시간·스펙트럼 해상도 보존: 시간 압축을 피함으로써 신호의 원래 해상도를 유지한다. 각 센서·채널에 독립적으로 적용하면 공간 해상도도 그대로 보존된다. 이는 시공간 구조 모델링을 전적으로 트랜스포머 기반 파운데이션 모델에 맡겨, 모델이 활용할 수 있는 정보를 최대화한다.
  • 직관적 해석 가능성: 토큰과 원본 신호 사이에 정확한 시간 정렬을 보장하므로, M/EEG 분석에서 토큰 자체를 바로 해석할 수 있다.
  • 데이터셋 간 일반화: 개별 토큰에 시간적으로 촘촘하거나 데이터셋‑특정 구조를 인코딩하지 않으므로, 전처리 파이프라인·획득 하드웨어·소스 재구성 방법의 차이에 대한 민감도가 낮아진다.
  • 학습 가능한 토크나이저 부재: 현재 알려진 샘플‑레벨 토크나이저는 모두 **비학습형(non‑learnable)**이며 고정된 이산화 방식을 사용한다. 본 연구는 M/EEG 데이터에 특화된 학습 가능(데이터‑적응형) 샘플‑레벨 토크나이저를 최초로 제안하고, 기존 비학습형 베이스라인과 비교한다.

주요 기여

  1. 연속 M/EEG 신호의 통계·스펙트럼 특성을 반영한 학습 가능 샘플‑레벨 토크나이제이션 프레임워크를 제안한다.
  2. MEG 데이터를 이용해 트랜스포머 기반 LNMs에 대한 샘플‑레벨 토크나이제이션 전략을 최초로 비교 평가한다.
  3. 데이터와 모델 아키텍처를 동일하게 유지한 통제 실험을 통해, 고정 이산화 방식이 대부분의 평가 지표에서 학습 가능 토크나이저와 비슷한 성능을 보이지만, **피험자 지문화(subject fingerprinting)**에서는 학습 가능 토크나이저가 일관된 개선을 제공함을 입증한다.

논문의 구성은 다음과 같다. 섹션 II에서는 시계열 토크나이제이션에 관한 기존 연구를 정리한다. 섹션 III에서는 본 연구에 사용된 토크나이저와 파운데이션 모델을 상세히 설명한다. 섹션 IV에서는 실험 설계와 토크나이저 평가 결과를 제시한다. 섹션 V에서는 결과의 의미를 논의하고, 섹션 VI에서는 주요 결론을 요약한다.


1. 시계열 토크나이제이션 방법의 분류

본 논문에서는 시간 granularity에 따라 시계열 토크나이제이션을 두 그룹으로 구분한다. 아래에서는 일반 시계열 문헌에서 제안된 비‑샘플‑레벨과 샘플‑레벨 전략을 검토하고, 신경 신호 모델링에의 적용 가능성을 논의한다.

1.1 비‑샘플‑레벨 토크나이제이션

가장 널리 사용되는 세 가지 비‑샘플‑레벨 전략은 패칭(patching), 시간‑주파수 변환(time‑frequency transforms), **벡터 양자화(vector quantization)**이다.

(1) 패칭

연속 시계열을 고정 길이(비중첩 혹은 부분 중첩) 구간으로 나누고, 각 구간을 하나의 토큰으로 취급한다. 이 방식은 시계열 모델링[22]‑[24]에서 처음 도입되었으며, 이후 M/EEG LNMs[11],[13],[14],[25]에 적용되었다. 패칭은 지역적인 시간 의존성을 포착하면서 시퀀스 길이와 연산 비용을 크게 줄일 수 있다. 그러나 전역 의존성·다중 스케일 동역학은 트랜스포머가 추론해야 하며, 경계에서 발생하는 인공적인 아티팩트와 주파수 정보의 암묵적 손실이 단점이다.

(2) 시간‑주파수 변환

원시 신호를 연속 웨이브렛 변환(CWT)이나 단시간 푸리에 변환(STFT) 스펙트로그램과 같은 공동 시간‑주파수 표현으로 매핑한다. 변환된 TF 계수는 이미지와 유사하게 패치화되어 Vision Transformer(ViT) 스타일[27]로 입력될 수 있다. TF 토큰은 주파수 축을 통해 주기성·전이·다중 스케일 동역학을 명시적으로 드러내므로, 원시 패치보다 모델링이 용이하고 해석 가능성이 높다. 다만, 변환 종류·윈도우 파라미터 선택에 따라 전처리 복잡도가 크게 증가하고, 도메인‑특화 하이퍼파라미터에 민감하다.

(3) 벡터 양자화(VQ)

VQ‑VAE[28] 혹은 Residual VQ(RVQ)[29]와 같은 방법으로 연속 시계열 구간을 코드북(이산 잠재 공간)으로 매핑한다. 학습된 코드북은 복잡한 로컬 패턴을 압축된 토큰 시퀀스로 변환해 대규모 비라벨 데이터에 대한 효율적인 사전학습을 가능하게 한다. 그러나 코드북 붕괴나 양자화 오차는 높은 시간 정밀도가 요구되는 작업(예: 예측, 이상 탐지)에서 성능 저하를 초래할 수 있다.

비‑샘플‑레벨 방법들은 압축·요약이라는 공통 목표를 갖지만, 각각의 inductive bias와 압축 대상, 다운스트림 목표가 다르다.

1.2 샘플‑레벨 토크나이제이션의 장점

샘플‑레벨 토크나이제이션은 트랜스포머 기반 파운데이션 모델에 다음과 같은 방법론적 이점을 제공한다.

  1. LLM(대형 언어 모델) 학습·훈련 파이프라인의 직접 적용
    연속 시계열을 이산 토큰으로 변환하면, LLM에서 사용되는 cross‑entropy 손실을 그대로 적용할 수 있다. 이는 평균 제곱 오차(MSE) 기반 회귀 손실보다 수치적 안정성과 수렴 속도가 우수하다[35],[36]. 또한 출력이 이산 확률 분포가 되므로, 사전 정의된 파라메트릭 분포 가정 없이 다중 모달(다중 피크) 데이터도 자연스럽게 모델링할 수 있다[17],[37].

  2. 구조적 단순성 및 계산 효율

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키