뇌기능 모듈 기반 혼합전문가 모델 BrainStack
초록
BrainStack은 뇌의 기능적 모듈성을 반영한 신경‑Mixture‑of‑Experts 구조로, EEG를 7개의 해부학적 영역별 전문가와 전역 Transformer 전문가로 분리한다. 학습 가능한 라우팅 게이트가 상황에 따라 각 전문가의 출력을 가중합하고, 전역 전문가가 지역 전문가에게 상향식 정규화를 제공하는 교차‑지역 증류를 도입한다. 새로 공개한 SS‑EEG 데이터셋(12명·120시간·24단어)에서 기존 모델들을 지속적으로 능가하며, 주제 간 일반화와 해석 가능성을 동시에 확보한다.
상세 분석
BrainStack은 뇌의 기능적 분할이라는 신경과학적 선험지식을 모델 설계에 직접 삽입한 점이 가장 큰 혁신이다. 기존 EEG 디코더는 전체 채널을 하나의 시퀀스로 처리하거나, 단순 채널‑별 토큰화에 머물렀지만, 본 논문은 10‑10/10‑20 시스템을 기반으로 전두엽, 전측두엽, 중심, 좌·우 측두엽, 두정, 후두 등 7개의 영역으로 채널을 명시적으로 구분한다. 각 영역마다 경량화된 CNN(Temporal Conv → Depthwise Spatial Conv → Separable Conv) 구조를 적용해 지역 특화 특징을 추출하고, 전역적인 상호작용을 포착하기 위해 CTNet이라 명명된 하이브리드 Conv‑Transformer 모듈을 사용한다.
라우팅 게이트는 각 전문가의 출력 F_i에 대해 작은 MLP h(.)를 통해 스코어를 계산하고, Softmax 정규화된 α_i를 가중치로 사용한다. 이 메커니즘은 입력 시퀀스의 시간·주파수 패턴에 따라 어느 영역이 현재 과제에 더 중요한지를 동적으로 판단하게 하며, 불필요한 노이즈 영역을 자동 억제한다. 라우팅 가중치는 학습 과정에서 전역 손실과 지역 손실에 동시에 기여하므로, 전문가 간 경쟁과 협력이 자연스럽게 이루어진다.
또한, 교차‑지역 증류(distillation) 전략을 도입해 전역 전문가의 logits을 지역 전문가의 출력에 대한 soft target으로 활용한다. 이는 지역 전문가가 단순히 지역 신호에만 집중하는 것이 아니라, 전역적인 의미 구조를 학습하도록 유도한다. 손실 함수는 L_fused, L_global, L_local, L_distill 네 개의 항을 가중합한 다목적 형태이며, warm‑up → transition → full‑training 단계별로 가중치를 스케줄링한다. 이러한 계층적 최적화는 초기 전역 표현의 안정성을 확보하고, 이후 지역 전문가가 전역 신호와 정합되도록 조정한다.
데이터 측면에서 저자들은 SilentSpeech‑EEG(SS‑EEG)라는 대규모 벤치마크를 구축했다. 12명의 피험자에게 24개의 무음 단어를 5 000회 이상 반복 녹음해 총 120시간 이상, 128채널 EEG + 8채널 EXG(눈·근육) 데이터를 확보했다. 이는 기존 KaraOne, Thinking Out Loud 등과 비교해 규모와 클래스 수 모두 현저히 큰 데이터셋이다.
실험 결과, BrainStack은 정확도, F1‑score, 그리고 피험자 간 일반화 측면에서 기존 CNN, RNN, Transformer, LGGNet 등 최신 모델들을 모두 앞섰다. 특히, 라우팅 가중치 시각화를 통해 전두·측두 영역이 언어 과제에서, 중심·두정 영역이 운동 상상 과제에서 높은 가중치를 받는 등, 신경과학적 기대와 일치하는 해석 가능성을 제공한다.
요약하면, BrainStack은 (1) 해부학적 모듈화, (2) 동적 전문가 라우팅, (3) 전역‑지역 교차 증류, (4) 대규모 고품질 데이터셋이라는 네 축을 결합해 EEG 기반 언어 디코딩의 정확도와 해석 가능성을 동시에 끌어올린 혁신적 프레임워크라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기