커뮤니티 기반 다중 에이전트로 암묵적 혐오 발언 탐지 향상

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 중앙 모더레이터 에이전트와 대상 집단별 커뮤니티 에이전트를 결합한 다중‑에이전트 프레임워크를 제안한다. 위키피디아 등 공개 지식원을 활용해 각 집단의 사회·문화적 맥락을 자동으로 추출하고, 모더레이터가 불확실한 경우에만 해당 커뮤니티 에이전트와 상담한다. 실험은 암묵적 혐오 발언이 풍부한 ToxiGen 데이터셋을 사용했으며, 제안 시스템이 기존 제로‑샷·Few‑Shot·CoT 프롬프트 방식보다 정확도와 균형 정확도(공정성) 모두에서 우수함을 입증한다.

상세 분석

**
이 연구는 현재 LLM 기반 혐오 발언 탐지의 두 가지 한계를 동시에 해결하려는 시도로 눈에 띈다. 첫째, 암묵적·코드화된 혐오 표현은 표면적인 단어만으로는 판단이 어려워 기존 텍스트‑중심 모델이 높은 위음성( false‑negative) 비율을 보인다. 둘째, 모델이 학습한 데이터는 주류 시각에 편향돼 소수집단에 대한 과소 탐지 또는 과잉 검열을 초래한다. 논문은 이를 보완하기 위해 ‘커뮤니티 에이전트’를 도입한다. 각 에이전트는 대상 집단(예: 흑인, 아시아인, 무슬림, 유대인, 여성, LGBTQ)별로 자동 생성된 위키피디아 질의‑응답을 통해 해당 집단의 역사·문화·사회적 맥락을 추출하고, 이를 임베딩 형태로 변환한다. 이때 교차‑어텐션 메커니즘을 사용해 집단 쿼리와 토큰 임베딩을 결합함으로써, 집단‑특화된 의미론적 표현을 얻는다.

모더레이터 에이전트는 먼저 입력 텍스트와 추출된 대상 그룹을 기반으로 초기 판단을 내린다. 판단 점수가 사전 정의된 불확실성 구간(τ_low, τ_high) 안에 있으면, 커뮤니티 에이전트에게 상담을 요청한다. 상담 단계에서는 커뮤니티 에이전트가 자체 판단 점수와 근거를 제공하고, 모더레이터는 두 점수를 가중 평균하거나 규칙 기반으로 결합해 최종 결정을 만든다. 이 구조는 ‘필요할 때만 전문가 의견을 구한다’는 인간 모더레이터의 실제 작업 흐름을 모방한다는 점에서 실용적이다.

실험 설계는 ToxiGen 데이터셋의 274 k 문장 중 8 960개를 수작업 라벨링한 부분집합을 사용했으며, 각 대상 그룹별 100개씩 무작위 샘플링했다. 평가 지표는 전통적인 F1 점수 외에 균형 정확도(balanced accuracy)를 핵심 공정성 지표로 채택했다. 결과는 제안 프레임워크가 기존 제로‑샷, Few‑Shot, CoT, DT‑oT 프롬프트 방식에 비해 평균 F1 점수와 균형 정확도 모두 4~7%p 상승했음을 보여준다. 특히, 소수집단에 대한 위음성 비율이 크게 감소해 공정성 측면에서 의미 있는 개선을 이루었다.

기술적 기여는 크게 세 가지로 정리할 수 있다. ① 공개 지식원을 활용한 자동화된 커뮤니티 프로파일링 방법론, ② 불확실성 기반 조건부 상담 메커니즘, ③ 다중‑LLM 환경에서의 협업 프로토콜을 구현한 AutoGen 기반 시스템. 한계점으로는 위키피디아 정보의 최신성·편향성 문제, 커뮤니티 에이전트 수가 제한적이라는 점, 그리고 실제 운영 환경에서의 실시간 응답성 검증이 부족하다는 점을 들 수 있다. 향후 연구는 보다 다양한 지식원(예: 뉴스, 포럼) 통합, 에이전트 수동·자동 확장, 그리고 사용자 피드백을 통한 지속적 학습 루프 구축을 제안한다.

커뮤니티 기반 다중 에이전트로 암묵적 혐오 발언 탐지 향상

초록

상세 분석

댓글 및 학술 토론

의견 남기기