CAF‑Mamba 교차모달 적응형 어텐션 융합을 통한 다중모달 우울증 탐지

CAF‑Mamba 교차모달 적응형 어텐션 융합을 통한 다중모달 우울증 탐지
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 최신 State‑Space 모델인 Mamba를 기반으로, 음성, 얼굴 랜드마크·AU, 눈·시선·머리 움직임 등 세 가지 시각·청각 모달리티를 동시에 활용한다. Unimodal Extraction Module로 각 모달리티의 시계열 특성을 추출하고, Cross‑modal Interaction Mamba Encoder(CIME)로 명시적 상호작용을 모델링한다. 이후 Modal‑wise Attention Block이 각 모달리티와 CIME 출력에 가중치를 동적으로 부여하고, Multimodal Mamba Encoder가 고차원 상관관계를 학습해 최종 우울증 판별을 수행한다. LMVD와 D‑Vlog 두 인‑와일드 데이터셋에서 기존 최첨단 모델들을 능가하는 정확도·F1 점수를 기록했으며, 파라미터 수와 추론 속도에서도 Transformer 기반 대비 효율성을 입증한다.

상세 분석

CAF‑Mamba는 세 가지 핵심 모듈로 구성된다. 첫 번째 Unimodal Extraction Module(UEM)은 각 모달리티별 1‑D CNN으로 차원을 통일한 뒤, Residual Mamba 블록을 적용한다. Residual 연결을 통해 저‑레벨 신호와 고‑레벨 추상 표현을 동시에 보존함으로써 학습 안정성을 높인다. 두 번째 Cross‑modal Interaction Mamba Encoder(CIME)는 세 개의 유니모달 임베딩을 단순 합산한 뒤, 또 다른 ResMamba 블록을 통과시켜 명시적인 교차‑모달 상호작용을 학습한다. 이는 “음성‑낮은 피치 ↔ 입꼬리 하강 ↔ 시선 하향”과 같은 감정‑행동 연관성을 효과적으로 포착한다. 세 번째 Adaptive Attention Mamba Fusion Module(AAMFM)은 Modal‑wise Attention Block(MAB)과 Multimodal Mamba Encoder(MME)로 이루어진다. MAB에서는 각 모달리티와 CIME 출력에 대해 시간 차원 평균 풀링을 수행해 압축된 벡터를 만든 뒤, 선형 변환·Softmax를 통해 가중치 α를 계산한다. 이 가중치는 1‑D Conv를 통해 가중합된 피처 X′에 적용되어 중요 모달리티를 강조하고 불필요한 정보를 억제한다. 이후 MME는 Residual Mamba 구조를 다시 사용해 X′의 장기 의존성을 모델링하고, 최종적으로 선형 레이어로 우울증 여부를 예측한다.

실험 설계는 두 인‑와일드 데이터셋(LMVD, D‑Vlog)에서 멀티모달 및 바이모달 설정을 모두 검증한다. LMVD는 1,823개의 Vlog와 5가지 시각·청각 피처를 제공하며, D‑Vlog은 961개의 Vlog와 음성·얼굴 랜드마크만 제공한다. 모델은 256 차원의 Mamba 블록 하나씩을 UEM, CIME, MME에 배치하고, Adam(learning rate = 1e‑4)와 ReduceLROnPlateau 스케줄러로 80 epoch 학습한다. 성능 평가는 Accuracy, Precision, Recall, F1을 사용한다.

결과는 표 1에서 멀티모달 실험 시 CAF‑Mamba가 78.69% Accuracy, 78.26% Precision, 79.12% Recall, 78.69% F1을 달성해 기존 최첨단 MDDformer(76.88%/77.02%/76.88%/76.85%)보다 각각 1.8~2.2%p 상승함을 보여준다. 바이모달 실험에서도 음성+눈·시선·머리(EGH) 조합이 가장 높은 성능을 기록했으며, 특히 음성 피처가 없을 경우 Precision이 급격히 감소함을 통해 음성 정보의 중요성을 확인한다.

Ablation 연구에서는 (1) CIME 제거 시 Precision이 6.83%p, Recall이 2.85%p 감소하고, (2) AAMFM 제거 시 Precision이 5.81%p, Recall이 1.10%p 감소함을 보여 두 모듈이 각각 명시적 상호작용과 동적 가중치 부여에 핵심적임을 입증한다. 효율성 비교에서는 파라미터 0.57M, 추론 시간(시퀀스 길이 10,000) 3.99 ms인 CAF‑Mamba가 Transformer 기반 DepDetector(1.06 M, 12.67 ms)보다 약 2배 빠르고, 시퀀스 길이에 대한 시간 복잡도가 거의 선형임을 확인한다. 이는 장시간 Vlog 데이터 처리에 실용적 장점을 제공한다.

전반적으로 CAF‑Mamba는 (1) Mamba 기반의 장기 의존성 모델링, (2) 명시적·암시적 교차‑모달 상호작용, (3) 모달리티‑별 동적 어텐션이라는 세 축을 결합해 기존 방법 대비 정확도·효율성 모두에서 우수함을 증명한다. 향후 연구에서는 더 경량화된 구조와 다양한 실험 환경(실험실·인‑와일드)에서의 일반화 검증이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기