읽는 대로 보는 해로운 밈 탐지: 저자원 설명 가능한 LLM 기반 프레임워크
초록
본 논문은 대규모 멀티모달 모델 대신 가벼운 단일모달 대형 언어 모델(LLM)을 활용해 저자원 환경에서도 해로운 밈을 정확히 탐지하고, 인간이 이해할 수 있는 단계별 추론 과정을 제공하는 U‑CoT+ 프레임워크를 제안한다. 고품질 Meme‑to‑Text 파이프라인으로 시각 정보를 텍스트로 변환한 뒤, 인간이 만든 가이드라인과 함께 제로샷 체인‑오브‑쓰(Chain‑of‑Thought) 프롬프트를 적용해 설명 가능한 판단을 수행한다. 7개 벤치마크에서 GPT‑4 등 고비용 모델에 필적하는 성능을 보이며, 비용·유연성·투명성 측면에서 기존 방법을 크게 능가한다.
상세 분석
U‑CoT+는 두 단계로 구성된다. 첫 번째는 “High‑Fidelity Meme2Text” 파이프라인으로, 경량 멀티모달 모델(LLaVA‑1.6‑7B 등)을 여러 번 호출해 이미지 속 인간 주체의 인종, 성별, 연령, 복장 등 핵심 시각 속성을 질문‑답 형식(VQA)으로 추출한다. 이러한 원자적 질문은 모델이 복잡한 장면을 한 번에 해석하려 할 때 발생하는 환각(hallucination)을 최소화한다. 이후 단일모달 LLM(Mistral‑12B, Qwen2.5‑14B 등)이 모든 VQA 결과를 통합해 일관된 고품질 텍스트 설명(D_h)을 생성한다. 이 텍스트는 “밈을 읽는다”는 의미에서 LLM이 직접 시각 정보를 처리하지 않고도 이미지 의미를 파악하도록 만든다.
두 번째 단계는 “Unimodal Guided CoT Prompting”이다. 여기서는 인간이 사전에 정의한 가이드라인(예: 보호집단 정의, 은유·풍자 해석 규칙, 명시적·암시적 혐오 구분 등)을 프롬프트에 삽입하고, LLM에게 단계별 추론을 요구한다. LLM은 (1) 이미지·캡션 내용 파악, (2) 맥락적 사회·역사적 배경 분석, (3) 잠재적 부정적 연관성 평가, (4) 의도·영향 판단, (5) 가이드라인 적용 순으로 사고 과정을 전개한다. 이렇게 생성된 “Reasoning” 텍스트는 최종 0/1 예측과 함께 제공돼 인간 검토자가 판단 근거를 바로 확인할 수 있다.
실험에서는 7개의 공개 해로운 밈 데이터셋(예: HatefulMemes, HarMeme 등)에서 U‑CoT+가 GPT‑4o‑mini와 같은 최신 멀티모달 모델에 근접하거나 이를 앞서는 정확도(F1, AUROC)를 기록했다. 특히 경량 LLM만을 사용했음에도 불구하고, 가이드라인 기반 CoT가 없을 때보다 평균 4~6%p 성능 향상이 관찰되었다. Ablation 연구에서 (i) Meme2Text 단계 없이 직접 이미지 프롬프트를 사용하면 성능이 급격히 떨어지고, (ii) 가이드라인 없이 순수 CoT만 적용하면 설명성은 유지되지만 정확도가 현저히 낮아짐을 확인했다.
이 접근법의 강점은 (1) 라벨링 비용이 거의 들지 않는 제로샷 설정, (2) 오픈소스 경량 모델만으로도 고성능 달성, (3) 인간이 직접 검증 가능한 단계별 추론 제공으로 투명성 확보이다. 그러나 한계도 존재한다. VQA 단계에서 경량 LMM이 복잡한 문화적 상징을 놓칠 경우 텍스트 설명이 부정확해질 수 있으며, 가이드라인 자체가 주관적이기 때문에 정책 변화에 따라 지속적인 업데이트가 필요하다. 또한 현재는 영어 기반 밈에 초점을 맞추었으므로 다언어·다문화 환경에서의 일반화 검증이 추가로 요구된다.
댓글 및 학술 토론
Loading comments...
의견 남기기