감정 인식에 최적화된 멀티모달 Mixup 기법 MS Mix

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MS‑Mix는 텍스트·영상·음성 등 서로 다른 모달리티를 활용하는 멀티모달 감정 분석에서 데이터 부족 문제를 해결하기 위해 설계된 감정‑감지형 Mixup 프레임워크이다. 감정‑유사도 기반 샘플 선택(SASS), 감정 강도 가이드 믹싱(SIG), 그리고 감정 정렬 손실(SAL)이라는 세 가지 핵심 모듈을 통해 모달리티별 감정 강도와 의미 일관성을 고려한 동적 혼합 비율을 학습한다. 세 가지 모듈은 기존 Mixup이 초래하는 라벨 노이즈와 의미 모호성을 크게 감소시키며, 3개의 벤치마크 데이터셋과 6개의 최신 백본 모델에서 일관된 성능 향상을 입증한다.

상세 분석

MS‑Mix는 멀티모달 감정 분석(MSA)에서 흔히 겪는 라벨 스파스와 고비용 어노테이션 문제를 데이터 증강으로 완화하려는 시도이다. 기존 Mixup은 무작위 샘플 페어링과 고정된 혼합 비율을 사용해 감정이 상반되는 샘플을 섞어 라벨 노이즈를 유발한다는 한계가 있다. 이를 해결하기 위해 저자는 세 가지 혁신적인 구성요소를 제안한다. 첫 번째인 Sentiment‑Aware Sample Selection(SASS)에서는 각 모달리티의 인코더 출력 Zᵐ를 평균화한 뒤 코사인 유사도 혹은 유클리드 거리 기반 감정 유사도 sᵢⱼ를 계산한다. 사전 정의된 임계값 δ보다 큰 페어만을 선택함으로써 ‘긍정‑부정’과 같은 감정 대립을 방지한다. 두 번째인 Sentiment Intensity Guided(SIG) 모듈은 멀티‑헤드 셀프‑어텐션을 이용해 각 샘플의 감정 강도 Iᵐ를 예측하고, 이를 조건으로 모달리티별 혼합 비율 λᵐᵢⱼ을 동적으로 산출한다. 이 과정에서 감정 강도가 높은 모달리티가 더 큰 가중치를 갖게 되어, 텍스트와 영상·음성 간 감정 표현 차이를 보정한다. 세 번째인 Sentiment Alignment Loss(SAL)는 KL‑다이버전스를 이용해 혼합 샘플의 예측 분포 Pₗ과 원본 감정 강도 분포 Pₘ을 정렬한다. 이는 감정 강도 예측기와 백본을 공동 학습하도록 유도하며, 라벨 스무딩 효과를 제공한다. 전체 손실은 원본 작업 손실(L_task), 혼합 MSE 손실(L_mixMSE), 정렬 손실(L_SAL)의 가중합으로 구성되어, 각 구성요소가 서로 보완적으로 작용한다. 실험에서는 CMU‑MOSEI, MOSI, 그리고 IEMOCAP 등 3개 데이터셋에 대해 BERT‑ 기반 텍스트 인코더, Transformer‑ 기반 비디오 인코더, CNN‑ 기반 오디오 인코더를 포함한 6가지 최신 백본을 적용하였다. 결과는 평균 F1‑score와 MAE 모두에서 기존 Manifold‑Mixup, MultiMix, PowMix 등을 능가했으며, 특히 감정 강도가 낮은 샘플에서의 개선 폭이 크게 나타났다. Ablation Study에서는 SASS, SIG, SAL 각각을 제거했을 때 성능 저하가 확인돼 각 모듈의 기여도가 명확히 증명된다. 전체적으로 MS‑Mix는 감정‑의미 일관성을 보존하면서 동적 혼합 비율을 학습하는 구조적 장점을 갖추어, 멀티모달 감정 분석 분야의 데이터 증강 표준을 한 단계 끌어올렸다.

감정 인식에 최적화된 멀티모달 Mixup 기법 MS Mix

초록

상세 분석

댓글 및 학술 토론

의견 남기기