중국어 혐오발언 탐지를 위한 프롬프트 기반 대형언어모델 병합 시스템

초록

본 논문은 중국 소셜미디어의 미묘하고 은밀한 혐오발언을 탐지하기 위해 세 단계의 LLM 기반 프레임워크를 제안한다. 먼저, 맥락을 고려한 프롬프트 엔지니어링으로 LLM이 암시적 혐오 패턴을 포착하도록 유도한다. 이어서 도메인 특화 특징을 포함한 감독 학습으로 모델을 미세조정하고, 마지막으로 여러 미세조정된 LLM을 병합해 OOD(Out‑of‑Distribution) 상황에서도 강인한 성능을 달성한다. STATE‑ToxiCN 벤치마크 실험에서 기존 베이스라인을 크게 앞선 결과를 보이며, 세부 혐오 유형 구분 능력이 향상됨을 입증한다.

상세 요약

본 연구는 기존 중국어 혐오발언 탐지 시스템이 직면한 두 가지 핵심 한계, 즉 맥락 의존적 은유·풍자 표현을 놓치기 쉽고, 급변하는 신조어·속어에 대한 적응력이 부족하다는 점을 정확히 짚어낸다. 이를 해결하기 위해 제안된 3단계 프레임워크는 각각의 단계가 서로 보완적인 역할을 수행한다는 점에서 설계적 통합성이 돋보인다. 첫 번째 단계인 Prompt Engineering에서는 “대화 흐름”, “발언자 의도”, “문화적 배경” 등을 명시적으로 포함한 다중‑샷 프롬프트를 설계함으로써, 사전학습된 대형언어모델(LLM)이 단순 키워드 매칭을 넘어 은유·역설·비유적 표현까지 포착하도록 유도한다. 여기서 중요한 점은 프롬프트 템플릿을 데이터‑드리븐 방식으로 자동 생성하고, 인간 전문가가 검증한 후 최적화한다는 점이다. 두 번째 단계인 Supervised Fine‑tuning에서는 기존의 텍스트 분류용 헤드 외에, “혐오 강도”, “표현 방식(직접·간접)”, “목표 집단” 등 3가지 태스크‑특화 라벨을 동시에 학습하도록 멀티‑태스크 손실 함수를 설계하였다. 또한, 사전학습 단계에서 수집한 슬랭 사전과 감성 사전을 임베딩 레이어에 결합해 도메인 적응성을 강화하였다. 세 번째 단계인 LLM Merging은 서로 다른 초기화와 파인튜닝 전략을 적용한 다수의 모델을 가중 평균이 아닌, 베이지안 모델 평균(BMA) 방식으로 통합한다. 이 과정에서 각 모델의 불확실성을 정량화하고, OOD 샘플에 대해 높은 엔트로피를 보이는 모델에 낮은 가중치를 부여함으로써 전반적인 견고성을 확보한다. 실험 결과, STATE‑ToxiCN의 미세‑분류(F1‑macro 0.78)와 OOD 테스트(F1‑macro 0.71)에서 기존 SOTA 모델(0.71, 0.63)을 각각 7%p, 8%p 이상 향상시켰다. 특히, 은유·풍자적 혐오 표현에 대한 재현율이 12%p 상승한 점은 프롬프트 단계의 효과를 입증한다. 한계점으로는 프롬프트 설계에 인간 전문가 의존도가 높아 비용이 발생하고, 병합 단계에서 계산 비용이 크게 증가한다는 점을 지적한다. 향후 연구에서는 자동 프롬프트 생성과 경량화된 모델 병합 기법을 탐색할 필요가 있다.

초록

상세 요약

📜 논문 원문 (영문)