PEACE 2.0: 증거 기반 설명과 반언어 생성으로 혐오 표현 대응

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PEACE 2.0은 혐오 표현을 자동 탐지하고, 그 판단 근거를 인간‑권 문헌에서 추출한 증거로 설명하며, 동일한 증거를 활용해 설득력 있는 반언어(counter‑speech)를 자동 생성하는 웹 기반 도구이다. RAG(검색‑증강 생성) 파이프라인을 도입해 명시적·암묵적 혐오 모두에 적용 가능하도록 설계했으며, 시각화·데이터 증강·다중 LLM 지원 등 실무·연구자용 인터페이스를 제공한다. 인간 평가와 자동 메트릭에서 RAG 기반 출력이 비RAG 대비 정보성·설득력·증거 충실도에서 유의미하게 우수함을 입증한다.

상세 분석

PEACE 2.0은 기존 PEACE 시스템에 세 가지 핵심 기능을 추가한 확장형 플랫폼이다. 첫 번째는 Retrieval‑Augmented Generation(RAG) 파이프라인을 이용해 혐오 표현 분류 결과를 인간‑권·국제법 문헌(UN 디지털 라이브러리, Eur‑Lex 등)에서 추출한 32,792개의 문서(3,173,630개 단락)와 연결한다. 입력 문장은 BGE‑M3 문장 임베더로 인코딩되고, FAISS 기반 내적 유사도 검색을 통해 상위 3개의 증거 단락을 선택한다. 선택된 증거는 요약 LLM(예: Mistral‑7B‑Instruct)으로 압축된 요약문으로 변환된 뒤, 원본 혐오 메시지와 함께 동일 LLM에 전달돼 ‘존중·설득력 있는’ 반언어를 생성한다.

두 번째 기능은 같은 RAG 메커니즘을 활용해 BERT 기반 혐오 분류기의 예측을 설명한다. 모델은 ISHate 데이터셋으로 미세조정되었으며, 증거와 결합된 프롬프트를 통해 “왜 이 메시지가 혐오로 판단됐는가”를 인간이 이해하기 쉬운 자연어 설명으로 출력한다. 설명에는 검색된 증거와 유사도 점수가 함께 제공돼 투명성을 높인다.

세 번째는 시각화·데이터 탐색 모듈이다. Sankey 다이어그램, 워드 클라우드, LDA 토픽 분포 등을 통해 명시·암묵적 혐오와 반언어 데이터셋을 다차원으로 탐색한다. 또한, 이름 엔터티 교체·백번역·동의어 치환 등 다양한 데이터 증강 기법을 제공해 암묵적 혐오의 변형 데이터를 손쉽게 생성한다.

실험 설계는 5개 암묵적 혐오 데이터셋(IHC, ISHate, TOXIGEN, DYNA, SBIC)에서 각각 20개씩(총 100개) 샘플링하고, 각 샘플에 대해 RAG와 비RAG 두 버전의 설명·반언어를 생성한다. 인간 평가자는 5가지 차원(Fluency, Informativeness, Persuasiveness, Soundness, Specificity)을 1‑5 Likert 척도로 채점했으며, Krippendorff α가 0.57‑1 사이로 신뢰도가 높았다. 결과는 RAG 기반 출력이 모든 차원에서 비RAG보다 현저히 높은 평균 점수를 기록했으며, 특히 암묵적 사례에서 정보성·설득력이 크게 향상되었다(예: Explanation‑Imp. 4.64 vs 2.72, Counter‑speech‑Imp. 4.80 vs 2.86). 자동 메트릭에서도 RAG가 의미적 유사도, Faithfulness, Perplexity, Distinct‑3 등에서 우수함을 보였다. 통계적 검증(Wilcoxon signed‑rank, p < 0.05) 역시 차이가 유의함을 확인한다.

이러한 결과는 증거 기반 grounding이 단순 언어 모델 출력보다 내용의 정확성·신뢰성을 크게 높이며, 특히 맥락이 모호한 암묵적 혐오에 대해 보다 타당하고 설득력 있는 반응을 제공한다는 점을 시사한다. 또한, PEACE 2.0은 웹 UI와 공개 API를 통해 연구자·운영자 모두가 손쉽게 접근·확장할 수 있도록 설계돼, 실시간 모더레이션, 교육, 정책 연구 등 다양한 활용 시나리오에 적용 가능하다. 다만 현재 지식베이스는 2025년까지의 정적 문헌에 한정돼 업데이트 주기가 필요하고, LLM 선택에 따라 생성 품질이 변동할 수 있다는 한계가 있다. 향후 적응형 검색, 지속적 지식베이스 증강, 다언어·다문화 반언어 평가 지표 도입 등이 제안된다.

PEACE 2.0: 증거 기반 설명과 반언어 생성으로 혐오 표현 대응

초록

상세 분석

댓글 및 학술 토론

의견 남기기