멀티모달 소셜 미디어 봇 탐지를 위한 CMRCA 기반 MSM‑BD 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 이미지, 사용자 통계, 트윗 텍스트 등 이질적인 정보를 동시에 활용하는 멀티모달 봇 탐지 모델 MSM‑BD를 제안한다. ResNet‑18 기반 시각 인코더, 특화된 사용자 특징 인코더, MiniLM 기반 트윗 인코더와 이를 효과적으로 융합하는 Cross‑Modal Residual Cross‑Attention(CMRCA) 모듈을 결합해 TwiBot‑22 데이터셋에서 기존 최첨단 방법들을 능가하는 정확도(0.8002)와 F1‑점수(0.6105)를 달성하였다.

상세 분석

**
MSM‑BD는 멀티모달 정보를 활용한다는 점에서 기존의 단일 모달(텍스트 혹은 그래프) 기반 탐지기와 차별화된다. 시각 인코더는 ImageNet 사전학습된 ResNet‑18을 사용해 프로필 사진에서 미세한 패턴을 추출하고, 사용자 특징 인코더는 기존 연구(Kantepe)를 참고해 다양한 메타데이터(팔로워·팔로잉 수, 계정 연령 등)를 벡터화한 뒤 선형 변환과 GELU 활성화를 적용한다. 트윗 인코더는 경량화된 MiniLM을 이용해 각 트윗을 임베딩하고, SE‑Net 영감을 받은 SSEF 모듈로 N개의 트윗 임베딩을 MLP와 Transformer‑Encoder를 통해 압축·정제한다. 핵심인 CMRCA 모듈은 각 모달을 Value, Query, Key로 명시적으로 매핑하고, 다중 헤드 어텐션을 통해 상호 보완적인 정보를 교환한다. 또한, 원본 임베딩과 어텐션 결과를 잇는 Residual 연결을 도입해 과적합을 방지하고 각 모달의 고유 특성을 보존한다. 최종 다중 헤드 어텐션 후 선형 분류기로 봇 확률을 출력한다. 실험에서는 1백만 사용자 규모의 TwiBot‑22 데이터셋을 그대로 사용해 학습·검증·테스트 분할을 유지했으며, 정확도와 F1‑점수 모두 기존 방법(예: BotRGCN, SGBot 등)을 앞섰다. 그러나 모델 복잡도와 학습 시간, 특히 ResNet‑18과 다중 헤드 어텐션이 결합된 부분에서 GPU 메모리 요구량이 높을 수 있다. 또한, 사용자 특징 엔지니어링 단계가 도메인‑특정 규칙에 의존하므로 다른 플랫폼(예: Instagram)으로의 일반화에는 추가 조정이 필요하다. 향후 연구에서는 경량화된 시각 인코더 교체, 그래프 구조 정보를 CMRCA에 통합, 그리고 셀프‑슈퍼비전 방식의 멀티모달 사전학습을 통해 성능·효율성을 동시에 개선할 여지가 있다.

멀티모달 소셜 미디어 봇 탐지를 위한 CMRCA 기반 MSM‑BD 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기