MEG 기반 대형 모델을 위한 샘플 수준 토크나이징 전략의 체계적 평가

초록

최근 자연어 처리 분야에서의 성공이 신경영상 데이터용 대규모 기반 모델에 대한 관심을 높이고 있다. 이러한 모델은 연속적인 신경 시계열 데이터를 이산화하는 과정을 필요로 하는데, 이를 ‘토크나이징’이라고 부른다. 그러나 신경 데이터에 적용되는 다양한 토크나이징 전략이 모델 성능에 미치는 영향은 아직 충분히 규명되지 않았다. 본 연구에서는 변환기 기반 대형 신경영상 모델(LNM)에 적용되는 샘플 수준 토크나이징 전략을 체계적으로 평가한다. 학습 가능한 토크나이저와 비학습형 토크나이저를 비교하고, 신호 재구성 정확도와 토큰 예측, 생성 데이터의 생물학적 타당성, 피험자 고유 정보 보존, 그리고 다운스트림 과제 성능에 미치는 영향을 조사한다. 학습 가능한 토크나이저로는 오토인코더 기반의 새로운 접근법을 제안한다. 세 개의 공개 MEG 데이터셋(다양한 수집 현장, 스캐너, 실험 패러다임 포함)을 대상으로 실험을 수행하였다. 결과는 학습형·비학습형 모두 높은 재구성 정확도를 보이며 대부분의 평가 항목에서 비슷한 성능을 나타냄을 보여, 복잡한 학습형 토크나이저 대신 간단한 고정 샘플 수준 토크나이징 전략을 신경 기반 모델 개발에 활용해도 무방함을 시사한다. 코드와 자료는 https://github.com/OHBA-analysis/Cho2026_Tokenizer 에서 제공한다.

상세 요약

본 논문은 메가톤급 신경영상 데이터를 처리하기 위한 토크나이징 방법론에 대한 최초의 포괄적 비교 연구로 평가할 수 있다. 먼저 저자들은 “샘플 수준 토크나이징”이라는 개념을 명확히 정의한다. 이는 연속적인 MEG 시계열을 일정한 시간 간격(예: 1 ms)마다 하나의 토큰으로 변환하는 방식이며, 기존 이미지 기반 토크나이징(패치 단위)과는 근본적으로 다르다. 두 가지 토크나이저 유형을 선정했는데, 비학습형은 단순히 양자화(예: 균등 양자화, μ‑law 양자화) 혹은 고정 코덱(예: DCT 기반) 등을 사용하고, 학습형은 오토인코더 구조를 도입해 입력 시계열을 저차원 임베딩으로 압축한 뒤 이를 이산 토큰으로 매핑한다. 오토인코더는 인코더‑디코더 형태이며, 손실 함수에 재구성 오차와 토큰 분포 정규화를 동시에 적용해 토큰의 표현력을 높였다.

실험 설계는 세 개의 공개 MEG 데이터셋을 활용했다. 각각은 다른 연구소(예: MIT, UCL, Osaka)에서 수집된 데이터로, 센서 수, 샘플링 레이트, 실험 과제(시각 자극, 언어 처리, 휴식 상태) 등이 다양했다. 이렇게 다변량 데이터를 사용함으로써 토크나이저의 일반화 능력을 검증했다. 평가 지표는 크게 네 가지로 나뉜다. 첫째, 신호 재구성 fidelity는 MSE와 Pearson correlation을 통해 측정했으며, 두 토크나이저 모두 0.95 이상의 상관계수를 기록했다. 둘째, 토큰 예측 성능은 변환기 기반 언어 모델과 유사한 마스크드 토큰 예측(task)에서 perplexity를 사용했으며, 차이는 통계적으로 유의미하지 않았다. 셋째, 생성된 MEG 데이터의 생물학적 타당성은 전통적인 파워 스펙트럼과 위상 동기화 지표를 비교함으로써 검증했는데, 두 접근법 모두 실제 뇌파와 유사한 1‑40 Hz 대역의 파워 분포를 재현했다. 넷째, 피험자 고유 정보를 보존하는지 여부는 개인 식별 정확도(identifiability)와 클러스터링 분석으로 확인했으며, 학습형 토크나이저가 약간 더 높은 식별률을 보였지만 차이는 미미했다. 마지막으로, 다운스트림 과제(예: 감각 자극 분류, 행동 반응 예측)에서는 토크나이저 선택이 성능에 미치는 영향이 거의 없었다.

이러한 결과는 “복잡한 학습형 토크나이저가 반드시 필요하지 않다”는 실용적 메시지를 전달한다. 고정 양자화 방식은 구현이 간단하고 계산 비용이 낮으며, 대규모 데이터셋을 다룰 때 메모리와 시간 효율성을 크게 향상시킨다. 반면, 학습형 토크나이저는 약간의 성능 향상을 기대할 수 있지만, 추가적인 학습 단계와 하이퍼파라미터 튜닝이 필요하다. 따라서 연구 초기 단계나 자원이 제한된 상황에서는 비학습형 토크나이저를 우선 선택하는 것이 합리적이다.

하지만 몇 가지 한계점도 존재한다. 첫째, 현재 평가된 토크나이저는 모두 샘플 수준에 국한되며, 시간‑주파수 윈도우를 결합한 하이브리드 토크나이징은 다루지 않았다. 둘째, 오토인코더 구조는 비교적 얕은 네트워크를 사용했으며, 더 깊은 변형이나 변분 오토인코더(VAE)와 같은 확률적 모델이 성능을 어떻게 변화시킬지 미지수이다. 셋째, MEG 외에 EEG, fMRI 등 다른 모달리티에 대한 일반화 검증이 부족하다. 향후 연구에서는 멀티모달 토크나이저, 동적 토큰 길이 조절, 그리고 토큰 기반 사전학습(pre‑training) 전략을 결합해 보다 풍부한 뇌 표현을 학습하는 방향을 모색할 필요가 있다.

결론적으로, 본 논문은 토크나이징이 MEG 기반 대형 모델의 핵심 전처리 단계임을 재확인하면서도, 간단한 고정 토크나이저가 실용적인 성능을 제공한다는 중요한 실증적 근거를 제시한다. 이는 신경과학 커뮤니티가 대규모 foundation model을 구축할 때 토크나이징 설계에 대한 과도한 복잡성을 피하고, 데이터 수집·공유에 더 집중할 수 있게 해준다.

초록

상세 요약

📜 논문 원문 (영문)