음악 청취 중 EEG 기반 스페이시오템포럴 감정 인식 CNN 연구

음악 청취 중 EEG 기반 스페이시오템포럴 감정 인식 CNN 연구
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 음악을 들으며 기록된 EEG 데이터를 이용해 감정(흥분·수준) 분류를 수행한다. 주관적 라벨링과 12채널 전두부 EEG를 전처리한 뒤, 다양한 윈도우 길이(110초)와 전극 배열 방식을 적용한 4가지 CNN 모델(36 Conv 레이어)을 비교한다. 10‑fold 및 LOSO 교차검증 결과, 윈도우 크기가 인식 성능에 큰 영향을 미치며 4초가 최적임을 확인하였다. 전극 순서는 성능에 미미한 차이를 보였고, CNN은 동일 데이터셋에서 SVM보다 LOSO 상황에서 우수한 정확도와 MCC를 기록하였다.

상세 분석

본 논문은 EEG 기반 감정 인식에서 스페이시오템포럴 정보를 어떻게 효과적으로 추출할 수 있는지를 탐구한다. 데이터는 12명의 건강한 남성 피험자를 대상으로 16곡의 MIDI 음악을 청취하는 동안 250 Hz로 수집된 12채널 전두부 EEG이며, 각 피험자는 청취 후 연속적으로 arousal‑valence 2차원 평면에 클릭하여 자기보고 라벨을 제공한다. 전처리 단계에서는 0.5‑60 Hz 밴드패스와 ICA 기반 아티팩트 제거, 표준화가 수행된다. 라벨은 arousal와 valence를 각각 고·저, 양·음으로 이진화하여 두 개의 독립적인 분류 문제로 설정하였다.

CNN 모델 설계는 3Conv~6Conv 네 가지 아키텍처로, Conv 레이어 수와 필터 크기, 풀링, 드롭아웃 비율을 단계적으로 증가시켰다. 모든 모델은 마지막에 각각 arousal와 valence를 예측하는 두 개의 전용 Fully‑Connected 헤드를 갖는다. 활성화 함수는 ReLU, 최종 소프트맥스, 손실은 교차 엔트로피이며 최적화는 Adam, 조기 종료로 과적합을 방지한다.

시간 윈도우는 1~10초(중첩 없음)로 슬라이싱했으며, 각 윈도우에 대해 다수결 투표로 최종 라벨을 결정한다. 10‑fold CV는 전체 피험자를 섞어 10개의 폴드로 나누고, LOSO CV는 한 피험자를 테스트 셋으로, 나머지를 학습에 사용한다. 성능 평가는 정확도와 Matthews Correlation Coefficient(MCC) 두 지표를 사용한다.

전극 순서는 (1) 무작위, (2) 3D 물리적 배열, (3) 인접 상관계수 최대화, (4) 인접 상관계수 최소화 네 가지로 재배열하였다. 재배열은 3D 입력 형태로 변환해 CNN에 입력했으며, Pearson Correlation Coefficient를 기반으로 전극 간 상관을 계산해 인접 전극을 재배치하였다.

실험 결과, 윈도우 크기가 4초일 때 가장 높은 정확도와 MCC를 기록했으며, 특히 arousal 분류에서는 3Conv 모델이 75.5%(MCC 0.51), 6Conv 모델이 78.35%(MCC 0.57) 정도의 성능을 보였다. valence 분류에서는 전반적으로 73~84% 수준으로, 5Conv 모델이 83.68% (MCC 0.67)로 최고였다. 윈도우 크기가 커질수록 성능이 급격히 감소하는 경향이 관찰되었으며, 이는 감정 변화가 짧은 시간 구간에 집중되어 있음을 시사한다. 전극 순서에 따른 차이는 미미했으며, 물리적 배열이 약간의 이점을 제공했지만 통계적으로 유의미한 차이는 없었다.

SVM 기반 기존 연구와 비교했을 때, 동일 데이터와 동일한 교차 검증 설정에서 CNN은 LOSO 상황에서 약 3~5%p 높은 정확도를 달성하였다. 이는 CNN이 자동으로 추출한 스페이시오템포럴 특징이 SVM이 사용하는 전통적 파워 스펙트럼 혹은 비선형 복잡도 특징보다 감정 상태를 더 잘 구분한다는 것을 의미한다.

한계점으로는 피험자 수가 12명에 불과해 일반화 가능성이 제한적이며, 전극 수가 12개에 머물러 전두부 영역만을 탐색했다는 점이다. 또한, 라벨링이 자기보고에 의존해 클래스 불균형이 존재했으며, 윈도우 중첩을 적용하지 않아 데이터 활용 효율이 낮았다. 향후 연구에서는 다채널(64~128채널) EEG와 고해상도 뇌파 지도화, 윈도우 중첩 및 데이터 증강, 그리고 멀티모달(EEG‑음악 특징) 융합을 통해 성능을 더욱 향상시킬 수 있을 것이다.


댓글 및 학술 토론

Loading comments...

의견 남기기