도메인 특성 활용이 작은 감정 데이터셋에서 트랜스포머보다 우수함
초록
본 논문은 EAV 데이터셋(EEG·Audio·Video)에서 복잡한 어텐션 메커니즘이 오히려 성능을 떨어뜨리고, 간단한 도메인 기반 특징(델타 MFCC, 주파수 대역 전력 등)과 적절한 사전학습이 소규모 데이터에서 최고의 정확도를 달성한다는 것을 실험적으로 입증한다.
상세 분석
이 연구는 멀티모달 감정 인식 문제를 세 가지 모델군으로 체계적으로 비교한다. M1은 사전학습된 Vision Transformer(ViT), Audio Spectrogram Transformer(AST), 그리고 자체 설계한 EEG Transformer를 그대로 활용한 베이스라인이며, M2는 각 모달리티의 구조적 특성을 반영한 팩터라이즈드 어텐션(EEG‑Tri‑Stream, Audio Temporal‑Frequency Dual, Video Space‑Time)으로 복잡성을 높였다. M3는 기존 CNN에 최소한의 버그 수정과 도메인‑특화 특징을 추가한 개선 버전이다.
실험 결과는 두드러진 패턴을 보여준다. M2 계열은 모두 베이스라인보다 5~13%p 낮은 정확도를 기록했는데, 이는 (1) 사전학습된 백본의 풍부한 표현을 추가 어텐션 레이어가 파괴하고, (2) 파라미터 수 대비 훈련 샘플이 극히 적어(≈280개/피험자) 과적합이 쉽게 발생했기 때문이다. 특히 Audio Dual‑Attention은 일부 피험자에서 거의 우연 수준의 성능을 보이며 불안정성을 드러냈다.
반면 M3는 단순하지만 효과적인 변형으로 큰 폭의 성능 향상을 달성했다. 오디오 CNN에 40개의 델타 MFCC를 추가해 61.9% → 65.56%(+3.66pp)로 상승했고, EEG에서는 원시 시계열 대신 5대 주파수 대역 전력, 차분 엔트로피, 알파 비대칭을 포함한 306차원 특성을 MLP에 입력해 60%대 초반에서 67.62%(+7.62pp)까지 끌어올렸다. 비디오에서도 SE 블록의 리덕션 비율을 16으로 조정하고 프레임 간 차이를 나타내는 델타 특징을 넣어 70.40% → 72.68%(+1.28pp)로 개선했다.
또한 M1의 Vision Transformer는 도메인‑특화 사전학습(얼굴 감정 데이터) 덕분에 75.30%의 최고 정확도를 기록했으며, 이는 기존 논문의 ViViT(74.5%)보다 약간 앞선 수치다. 이는 복잡한 어텐션 구조보다 사전학습 데이터와 도메인 지식이 작은 데이터셋에서 더 큰 영향을 미친다는 결론을 뒷받침한다.
전체적으로 이 논문은 (1) 작은 규모 데이터에서는 모델 복잡도보다 데이터에 맞는 특징 설계와 사전학습이 핵심, (2) 팩터라이즈드 어텐션은 대규모 데이터에서 효율적일 수 있으나 제한된 샘플에서는 오히려 성능을 저하시킬 위험이 있음, (3) 구현상의 사소한 버그(예: Softmax 중복 적용)도 결과에 큰 차이를 만든다는 실용적인 교훈을 제공한다. 이러한 인사이트는 향후 감정 인식뿐 아니라 제한된 라벨을 가진 바이오시그널 분석 전반에 적용 가능하다.
댓글 및 학술 토론
Loading comments...
의견 남기기