EEG 감정 인식을 위한 강화형 트랜스포머 CNN BiLSTM 모델과 이중 어텐션 메커니즘

EEG 감정 인식을 위한 강화형 트랜스포머 CNN BiLSTM 모델과 이중 어텐션 메커니즘
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 988차원의 EEG 특징을 활용해 중립, 긍정, 부정 3가지 감정을 분류하는 과제에서, 잔차 1D‑CNN, 양방향 LSTM, 16‑head와 8‑head 이중 멀티헤드 셀프‑어텐션, 그리고 정규화·드롭아웃·라벨 스무딩을 결합한 하이브리드 네트워크를 제안한다. 2 529개의 샘플을 80/20 비율로 학습·테스트 분할한 결과, 검증 정확도 99.19%와 훈련‑검증 격차 0.56%를 달성했으며, 기존 머신러닝·기본 딥러닝 베이스라인을 크게 능가한다. 통계적 검증(Friedman·Wilcoxon)과 특성 중요도 분석을 통해 공분산 기반 연결성 특징이 가장 큰 기여를 함을 확인하였다.

상세 분석

본 논문은 EEG 기반 감정 인식에서 흔히 발생하는 고차원·노이즈·피험자 의존성 문제를 해결하고자, 공간‑시간‑전역 의존성을 동시에 모델링할 수 있는 복합 신경망 구조를 설계하였다. 입력 단계에서 988개의 전처리된 특징을 z‑스코어 정규화한 뒤, 1D‑CNN 블록을 4단계로 쌓아 채널 간 국소 패턴을 추출한다. 각 Conv 레이어는 배치 정규화와 ReLU 활성화를 포함하고, 잔차 연결을 통해 그래디언트 흐름을 원활히 하여 깊은 네트워크에서도 학습이 안정적이다.

CNN 출력은 (배치, 시퀀스 길이 = 247, 채널 = 256) 형태로 변환되어 BiLSTM에 입력된다. 양방향 LSTM은 앞·뒤 컨텍스트를 동시에 고려함으로써 감정 변화의 시간적 흐름을 포착한다. 두 개의 BiLSTM 레이어를 순차적으로 쌓아 계층적 시간 표현을 강화했으며, 각 레이어의 은닉 차원은 256으로 동일하게 유지해 파라미터 효율성을 확보한다.

시간 표현 위에 두 개의 멀티헤드 셀프‑어텐션 모듈을 배치한다. 첫 번째 어텐션은 16개의 헤드를, 두 번째는 8개의 헤드를 사용해 서로 다른 스케일의 상관관계를 학습한다. 어텐션 후에는 레이어 정규화와 드롭아웃(0.3)을 적용해 과적합을 억제하고, 학습 안정성을 높였다.

어텐션 출력을 전역 평균 풀링과 전역 최대 풀링으로 병합함으로써 전체 시퀀스의 전반적 추세와 가장 강렬한 활성화를 동시에 보존한다. 이어지는 전결합(FC) 블록은 256‑512‑256‑128‑3 구조로, 각 층마다 ReLU와 드롭아웃을 삽입해 모델 복잡도를 조절한다. 최종 소프트맥스 레이어는 감정 클래스 확률을 출력한다.

학습 과정에서는 AdamW 옵티마이저(β₁=0.9, β₂=0.999, weight decay=1e‑4)를 사용하고, 초기 학습률을 cosine annealing 스케줄로 조절하였다. 라벨 스무딩(ε=0.1)을 적용해 과도한 확신을 완화하고, 교차 엔트로피 손실에 정규화 항을 더해 일반화를 촉진한다. 5‑fold 교차 검증 결과, 평균 정확도 99.19%와 훈련‑검증 차이 0.56%를 기록했으며, 이는 기존 SVM(≈73%), Random Forest(≈78%), 기본 CNN‑LSTM(≈92%) 등을 크게 앞선 수치이다.

통계적 검증으로 Friedman 검정 후 Wilcoxon 사후 검정을 수행했으며, p < 0.05 수준에서 제안 모델이 모든 비교 모델보다 유의하게 우수함을 확인했다. 특성 중요도 분석에서는 Random Forest, Extra Trees, Mutual Information, ANOVA, 상관계수, SHAP 등 다중 방법을 적용했을 때, 공분산 기반 연결성 특징이 일관되게 최상위에 위치했다. 이는 채널 간 상호작용이 감정 구분에 핵심적인 정보를 제공한다는 기존 연구와 일치한다.

전체적으로, 공간‑시간‑전역 의존성을 동시에 학습하도록 설계된 이중 어텐션 하이브리드 구조는 고차원 EEG 데이터에서 과적합을 방지하면서도 뛰어난 분류 성능을 달성한다. 또한, 모델 내부 어텐션 가중치와 특성 중요도 분석을 통해 어느 정도의 해석 가능성을 제공함으로써 임상·실시간 적용 가능성을 높였다.


댓글 및 학술 토론

Loading comments...

의견 남기기