멀티모달 혐오 영상의 시간적 위치 탐지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MultiHateLoc은 영상‑레벨 라벨만으로 시각·음성·텍스트 3가지 모달리티의 혐오 구간을 프레임 수준에서 예측하는 최초의 약지도(weakly‑supervised) 프레임워크이다. 모달리티별 전용 트랜스포머 인코더, 동적 교차‑모달 융합, 그리고 모달리티‑인식 Top‑K MIL 손실을 결합해 시간적·다중모달 상관관계를 효과적으로 학습한다. HateMM·MultiHateClip 데이터셋에서 기존 방법들을 크게 앞서며, 프레임‑단위 mAP 기준 최고 성능을 기록한다.

상세 분석

본 논문은 온라인 동영상에서 혐오 콘텐츠를 정확히 언제 발생하는지를 찾는 ‘멀티모달 혐오 콘텐츠 로컬라이제이션(WS‑MHL)’ 문제를 정의하고, 이를 해결하기 위한 MultiHateLoc 프레임워크를 제안한다. 주요 기술적 기여는 세 가지로 요약할 수 있다.

첫째, **Modality‑Aware Temporal Encoding (MA‑TE)**이다. 기존 영상·음성·텍스트 융합 연구는 하나의 공통 시계열 백본을 사용하거나, 텍스트는 전체 영상에 고정된 임베딩을 부여하는 경우가 많았다. 여기서는 각 모달리티의 특성을 반영한 전용 트랜스포머 인코더를 설계한다. 영상은 ViT‑B/16으로 추출된 768‑차원 프레임 특징을, 음성은 VGGish 기반 128‑차원 1초 클립 특징을, 텍스트는 Whisper로 전사 후 BERT‑base(768)로 인코딩한 문장별 임베딩을 사용한다. 특히 텍스트는 ‘문장‑단위 텍스트 임베딩’ 과정을 통해 시간 정렬을 보장한다(문장 시작·종료 타임스탬프에 맞춰 프레임 수만큼 복제). 이렇게 모달리티마다 별도 트랜스포머를 적용함으로써, 시각적 움직임, 음성의 억양·배경음, 텍스트의 의미 변화를 각각 최적의 시간적 윈도우에서 포착한다.

둘째, **Dynamic Cross‑Modal Fusion (DCM‑Fusion)**와 Cross‑Modal Contrastive Alignment이다. DCM‑Fusion은 각 타임스텝마다 세 모달리티의 중요도를 학습된 어텐션 가중치로 동적으로 조절한다. 이는 혐오 신호가 시각에서 주로 나타날 때는 영상 피처에, 음성·텍스트가 주도할 때는 해당 모달리티에 가중치를 부여해 정적인 early‑fusion의 한계를 극복한다. 또한, 양성·음성 샘플 간의 대비 학습을 통해 서로 다른 모달리티 간의 표현 일관성을 강화한다. 구체적으로, 같은 프레임에서 서로 다른 모달리티의 임베딩을 ‘positive pair’로, 서로 다른 비디오 혹은 비혐오 구간의 임베딩을 ‘negative pair’로 설정해 InfoNCE 손실을 최소화한다. 이 과정은 멀티모달 간 시맨틱 정렬을 촉진해, 약지도 상황에서도 혐오 구간을 정확히 구분하도록 돕는다.

셋째, Modality‑Aware Top‑K Multiple Instance Learning (MIL) 손실이다. 영상‑레벨 라벨만 존재하므로, 프레임‑레벨 예측을 직접 지도할 수 없다. 논문은 각 모달리티별로 Top‑K 프레임을 선택해 해당 프레임들의 평균 점수를 영상‑레벨 예측으로 사용한다. 여기서 K는 영상 길이와 라벨 비율에 따라 동적으로 조정되며, ‘긍정’ 영상에서는 높은 점수를 가진 K개의 프레임이 혐오 구간으로 학습되고, ‘부정’ 영상에서는 낮은 점수를 유지하도록 압박한다. 이와 동시에 각 모달리티별 MIL 손실을 가중합해, 어느 한 모달리티가 약하게 작용하더라도 다른 모달리티가 보완하도록 설계했다.

실험에서는 두 공개 데이터셋(HateMM, MultiHateClip)에서 프레임‑단위 mAP, AUC, IoU 등 다양한 지표를 측정했다. MultiHateLoc은 기존의 영상‑중심 WS‑VAD 모델(Sultani 등)이나 단일·이중 모달리티 기반 방법들을 크게 앞서며, 특히 텍스트가 주요 신호인 구간에서 15% 이상 mAP 향상을 보였다. Ablation study는 MA‑TE, DCM‑Fusion, Contrastive Alignment, Top‑K MIL 각각이 독립적으로 성능에 기여함을 입증한다.

전체적으로 본 연구는 (1) 멀티모달 시계열 데이터를 각각 최적화하는 인코더 설계, (2) 시간에 따라 변하는 모달리티 중요도를 동적으로 반영하는 융합 메커니즘, (3) 약지도 환경에서도 프레임‑레벨 로컬라이제이션을 가능하게 하는 MIL 전략이라는 세 축을 결합함으로써, 멀티모달 혐오 콘텐츠 탐지 분야에 새로운 패러다임을 제시한다. 향후 실시간 스트리밍 모니터링, 다국어·다문화 환경 적용, 그리고 더 세밀한 라벨링 없이도 악성 콘텐츠를 억제하는 시스템 구축에 활용될 가능성이 크다.

멀티모달 혐오 영상의 시간적 위치 탐지

초록

상세 분석

댓글 및 학술 토론

의견 남기기