멀티모달 감정 분석을 위한 불변 표현 기반 시퀀스 변동 정규화
초록
본 논문은 감정 표현의 일관성을 확보하기 위해 두 축(시간·모달리티)에서 동시에 강화하는 프레임워크를 제안한다. 모달리티 차원에서는 공유 인코더와 개별 인코더를 활용한 불변·특이 표현을 분리하고, 불변 표현을 이용해 동적 게이팅 방식으로 교차‑모달 융합을 수행한다. 시간 차원에서는 1‑차원 총변량(TV) 정규화를 JSD 기반의 인접 프레임 차이로 근사한 순차 변동 정규화(SVR)를 도입해 급격한 감정 변동을 억제한다. 세 가지 손실(L_con, L_dom, L_ti)을 결합한 학습으로 MOSI·MOSEI·UR‑FUNNY 데이터셋에서 최첨단 성능을 달성했으며, 잡음 강인성 실험에서도 우수함을 보였다.
상세 분석
이 연구는 멀티모달 감정 분석에서 “표현의 불변성”과 “시간적 연속성”을 동시에 만족시키는 새로운 이중 강화 전략을 제시한다. 먼저 모달리티 차원에서 공유 인코더(E_I)를 통해 모든 모달리티에 공통된 불변 표현 I_i를 추출하고, 각 모달리티별 전용 인코더(E_S)를 이용해 특이 표현 S_i를 학습한다. 불변 표현 간의 일관성을 유지하기 위해 중앙 모멘트 차이(CMD)를 활용한 L_con을 도입했으며, 모달리티 구분을 강제하는 판별기와 그라디언트 역전 레이어를 결합한 적대 학습을 통해 L_dom을 정의한다. 여기서 additive angular margin loss(L_am)을 사용해 클래스 간 경계를 명확히 한다.
시간 차원에서는 급격한 감정 변동이 모델을 혼란스럽게 하는 문제를 해결하고자, 총변량 정규화(TV)를 1‑차원 선형 차이로 단순화하고, 인접 프레임 간의 Jensen‑Shannon Divergence(JSD)를 최소화하는 L_ti를 설계했다. 이는 실제로는 “연속적인 프레임 사이의 확률 분포 차이”를 억제함으로써, 감정 흐름을 부드럽게 만든다.
융합 단계에서는 불변 표현 I_i를 게이트 신호로 활용한다. Factorized Bilinear Pooling(FBP)을 통해 각 모달리티에 대한 가중치(Sign_a, Sign_v)를 생성하고, 이를 텍스트 기반 교차‑어텐션으로 얻은 특이 표현 F_ta, F_tv에 곱해 최종 표현 F_final을 만든다. 이렇게 하면 급격한 변동을 포함한 특이 표현이 불변 표현에 의해 조절되어, 보다 안정적인 멀티모달 특징이 확보된다.
학습 목표는 L = L_task + αL_con + βL_dom + γL_ti 로, α,β,γ를 각각 1.0, 0.4, 1.0 으로 설정해 각 손실의 기여도를 균형 있게 조정한다. 실험에서는 MOSI·MOSEI·UR‑FUNNY 세 데이터셋에서 기존 SOTA 모델(MISA, MMIN 등)을 능가하는 성능을 기록했으며, 특히 이진·7‑클래스 정확도와 F1 점수에서 두드러진 향상을 보였다. 또한 Gaussian 노이즈(N(0,0.1~1.0))를 입력해도 성능 저하가 미미해, 제안된 SVR이 노이즈 강인성을 크게 향상시킴을 확인했다.
전반적으로 이 논문은 불변 표현을 통한 모달리티 정합성 확보와, 총변량 기반의 시계열 정규화를 결합함으로써, 급격한 감정 변동과 잡음에 강인한 멀티모달 감정 디코딩 프레임워크를 제시한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기