EEG 파운데이션 모델 현황과 벤치마크: 진전, 평가, 과제
초록
본 논문은 최근 급부상한 EEG 파운데이션 모델들을 50종류까지 정리하고, 공개된 12개 모델을 13개 데이터셋·9개 BCI 패러다임에 걸쳐 교차 피험자(LOSO)와 소수 샷(Within‑Subject) 두 가지 설정에서 비교 평가한다. 전체 파라미터 튜닝과 선형 프로빙을 모두 실험한 결과, 선형 프로빙만으로는 충분한 전이 성능을 얻기 어렵고, 기존 전문 모델(스크래치 학습)도 여전히 경쟁력을 유지한다는 점을 확인했다. 또한 모델 규모와 사전학습 데이터 양이 무조건 성능 향상으로 이어지지 않으며, 현재 데이터·학습 환경에서는 스케일링 법칙이 적용되지 않음을 지적한다.
상세 분석
논문은 먼저 EEG 파운데이션 모델의 설계 축을 ‘데이터 표준화·전처리’, ‘모델 아키텍처’, ‘자기지도 사전학습 전략’으로 구분한 통합 분류 체계를 제시한다. 50개의 기존 연구를 정량적으로 분석한 결과, 최근 2년간 발표된 논문의 82%가 2024~2026년에 속하며, Transformer 기반 인코더가 전체 모델의 68%를 차지한다는 점에서 전통적인 CNN·RNN보다 시퀀스‑투‑시퀀스 처리에 최적화된 구조가 선호되고 있음을 보여준다. 사전학습 목표는 마스크 재구성, 토큰화·코드북 예측, 주파수 도메인 복원, 대조 학습, 인과적(autoregressive) 예측 등 5가지 패턴으로 요약되며, 각 목표가 데이터 특성(시간·주파수·다중모달)과 연계돼 설계된다는 점이 핵심이다.
벤치마크에서는 12개의 오픈소스 파운데이션 모델을 동일한 전처리 파이프라인(z‑score, CAR 등)과 동일한 LOSO·Few‑Shot 프로토콜에 적용했다. 전이 방식은 (1) 전체 파라미터 미세조정(full‑fine‑tuning)과 (2) 고정된 인코더에 선형 분류기만 학습(linear probing)으로 나뉘었다. 실험 결과, 대부분의 모델에서 full‑fine‑tuning이 선형 프로빙보다 평균 4~7%p 높은 정확도를 보였으며, 특히 ERP·SSVEP와 같은 고주파 패턴 인식에서 차이가 크게 나타났다. 이는 EEG 신호가 시공간적 변동성이 크고, 사전학습된 표현이 복잡한 비선형 변환을 필요로 함을 시사한다.
전통적인 전문 모델(예: EEGNet, DeepConvNet)과의 비교에서는, 파운데이션 모델이 일부 과제(예: Motor Imagery)에서만 미세하게 앞서지만, 전체 평균 성능에서는 유의미한 우위를 보이지 않았다. 이는 파운데이션 모델이 대규모 이질적 데이터에 의해 일반화된 표현을 학습했지만, 특정 파라다임에 특화된 특징을 충분히 포착하지 못한다는 한계로 해석된다.
스케일링 법칙 검증에서는 파라미터 수가 1M에서 1B까지 다양하게 존재함에도 불구하고, 모델 크기와 사전학습 데이터 양이 직접적인 성능 향상과 상관관계가 약했다. 특히, 500M 파라미터를 초과하는 대형 모델은 학습 비용 대비 성능 이득이 미미했으며, 일부 경우 오히려 과적합 현상이 관찰되었다. 이는 현재 공개된 EEG 데이터셋이 충분히 다양하고 방대하지 않아, 대형 모델이 학습할 충분한 신호 다양성을 제공하지 못하기 때문이다.
마지막으로 논문은 평가 프로토콜의 표준화 필요성을 강조한다. 기존 연구들은 데이터 분할 방식, 라벨링 비율, 전처리 옵션 등에 있어 일관성이 없으며, 이는 모델 간 공정한 비교를 방해한다. 저자는 향후 베이스라인 공개, 평가 스크립트 공유, 그리고 ‘실시간 배포·제한된 라벨링’ 상황을 반영한 새로운 벤치마크를 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기