뇌전도 예측을 위한 이중 강화 조건부 확산 모델 DECODE
DECODE는 사전학습된 언어 모델을 이용해 자연어로 표현된 인지 이벤트를 텍스트 임베딩으로 변환하고, 이를 EEG의 과거 신호와 결합해 확산 과정을 조건부로 제어한다. 역사 기반 라그랑주 샘플링과 텍스트 기반 그래디언트 가이드를 동시에 적용함으로써 75 타임스텝(≈0.75 s) 예측 구간에서 평균 절대오차 0.626 µV라는 서브마이크로볼트 수준의 정확도를 달성했으며, CRPS < 0.72의 잘 보정된 불확실성 추정도 제공한다. 특히 새로운 …
저자: Mehran Shabanpour, Sadaf Khademi, Konstantinos N Plataniotis
본 논문은 인지 이벤트가 발생하기 직전의 EEG 신호를 정확히 예측하는 문제를 다루며, 기존 방법이 갖는 두 가지 핵심 한계—신경 역학의 확률적 특성과 행동 맥락의 의미적 복잡성—를 동시에 해결하고자 한다. 이를 위해 저자들은 Dual‑Enhanced Conditioned Diffusion(이하 DECODE)이라는 새로운 프레임워크를 제안한다. DECODE는 (1) 사전학습된 대형 언어 모델(BERT‑large)을 이용해 자연어로 기술된 인지 이벤트를 텍스트 임베딩으로 변환하고, (2) 과거 EEG 시계열을 기반으로 한 라그랑주 샘플링을 통해 시간적 일관성을 유지한다. 두 종류의 조건을 동시에 적용함으로써 확산 모델의 역과정에서 텍스트와 히스토리 양쪽의 정보를 반영한다.
**데이터와 전처리**
연구에 사용된 데이터는 MPDB(Multimodal Physiological Dataset for Driving Behaviour)이며, 35명의 피험자가 고해상도 운전 시뮬레이터에서 수행한 5가지 행동(브레이크, 턴, 차선 변경, 가속, 안정) 동안 기록된 59채널 EEG를 포함한다. 각 트라이얼은 사건 전후 2 초(500 ms 전, 1500 ms 후) 길이이며, 전체 5 700여 개 트라이얼이 존재한다. 전처리 단계에서는 0.1–30 Hz 밴드패스, 아티팩트 제거, 베이스라인 보정, 평균 리퍼런싱을 수행하고, ERP와 파워 스펙트럼 분석을 통해 행동별 특징적인 전극 14개(Fpz, P7 등)를 선정하였다. 또한, 슬라이딩 윈도우(64 스텝 스트라이드)를 적용해 데이터 양을 약 15배 확대함으로써, 독립적인 트라이얼 특성에도 불구하고 충분한 학습 샘플을 확보하였다.
**모델 구조**
DECODE는 기존 Diffusion‑TS를 기반으로 하며, 전방 노이즈 스케줄은 코사인 β‑스케줄을 사용해 500 스텝까지 진행한다. 역과정에서는 트렌드, 시즌성, 잔차를 명시적으로 분해하는 Transformer‑Encoder‑Decoder 구조를 채택한다. 트렌드 컴포넌트는 저주파 다항 회귀로, 시즌성은 Fourier‑based top‑k 선택으로, 잔차는 Residual 네트워크로 모델링한다.
텍스트 조건화는 BERT‑large의 풀러 출력을 정규화된 임베딩(e_text)으로 변환하고, EEG 시계열 인코더(f_ts)와 동일 차원의 임베딩(e_ts)으로 매핑한다. InfoNCE 대비 학습을 통해 두 임베딩을 정렬함으로써 “Semantic‑Neural Bridge”(SNB)를 형성한다. 이 브릿지는 텍스트와 신경 패턴 사이의 의미적 일치를 강화해, 잠재 공간이 특정 행동 간 경계에서 붕괴되는 것을 방지한다.
**이중 조건화 메커니즘**
역과정에서 히스토리 기반 라그랑주 샘플링은 관측된 과거 EEG와의 L2 손실을 포함해, 고노이즈 단계에서 전역 구조를 유지한다. 텍스트 기반 그래디언트 가이드는 로그‑우도 ∇ₓ log p(c|x) 를 계산해, 목표 이벤트의 텍스트 임베딩 방향으로 샘플을 미세 조정한다. 최종 업데이트 식은
x_{t‑1}=μ_θ(x_t,t)+σ_t z+λ_h g_history+λ_t g_text
이며, λ_h와 λ_t를 조절해 히스토리와 텍스트의 상대적 영향력을 제어한다. 이 과정은 잠재 공간에 Riemannian 메트릭을 부여해, 행동 전이 시 자연스러운 지오데식 경로를 따라가도록 만든다.
**실험 설정 및 결과**
모델은 3개의 Encoder 레이어, 2개의 Decoder 레이어, 히든 차원 96, 헤드 4개의 Transformer를 사용했으며, 학습은 12 000 epoch, 배치 크기 1 075, Adam(lr=1e‑5)와 EMA(0.995)로 진행하였다. 평가 지표는 MAE, CRPS, 그리고 클래스별 정확도이다. DECODE는 75 스텝(≈0.75 s) 예측 구간에서 MAE 0.626 µV, CRPS < 0.72를 기록했으며, 기존 최첨단 Diffusion‑TS 대비 MAE가 약 24 % 개선되었다. 특히, 브레이크와 같은 고인지 부하 상황에서 전압 변동을 정밀히 재현했으며, 베타·저감마 밴드가 가장 구분력 있는 특징임을 확인하였다.
**제로샷 일반화**
텍스트 임베딩만 제공하면, 훈련에 포함되지 않은 새로운 행동(예: “급정거”)에 대해서도 의미적 연속성을 활용해 합리적인 EEG 궤적을 생성한다. 이는 라벨링 비용이 높은 BCI 응용에서 큰 장점으로 작용한다.
**의의와 향후 과제**
DECODE는 (1) 확산 기반 확률적 예측으로 EEG의 다중모달 불확실성을 정량화, (2) 자연어 텍스트를 통한 풍부한 의미적 조건화로 행동‑뇌 연결을 명시적으로 모델링, (3) 히스토리와 텍스트 가이드를 조화시킨 이중 강화 메커니즘을 통해 장기 예측 정확도와 불확실성 보정을 동시에 달성한 최초의 프레임워크라 할 수 있다. 이러한 접근은 실시간 뇌‑컴퓨터 인터페이스, 예측 기반 안전 제어, 그리고 인지 과학 연구에서 새로운 패러다임을 제시한다. 향후 연구에서는 (a) 다채널 공간적 상관관계의 보다 정교한 모델링, (b) 실시간 온라인 추론을 위한 경량화, (c) 다양한 인지·감정 상황에 대한 대규모 제로샷 테스트 등을 통해 적용 범위를 확대할 수 있을 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기