입력 기반 설명이 혐오 발언 탐지의 공정성을 높일 수 있을까
초록
본 논문은 입력 기반 토큰 기여도 설명(라쇼날)과 공정성 사이의 관계를 체계적으로 조사한다. 인코더‑전용 모델(BERT, RoBERTa)과 디코더‑전용 LLM(Qwen, Llama) 세 가지 편향 유형(인종, 성별, 종교)에 대해 16가지 설명 기법을 적용해, (1) 편향 예측 식별, (2) 공정한 모델 자동 선택, (3) 학습 과정에서 편향 완화라는 세 가지 관점에서 실험한다. 결과는 라쇼날이 편향 예측을 탐지하고 편향 감소를 위한 감독 신호로 활용될 수 있지만, 후보 모델 중 가장 공정한 모델을 선택하는 데는 신뢰성이 낮음을 보여준다.
상세 분석
이 연구는 기존 연구가 주로 정성적 분석에 머물렀던 점을 보완하기 위해, 대규모 정량 실험을 설계하였다. 먼저 저자는 두 개의 대표적인 혐오 발언 데이터셋(Civil Comments, Jigsaw)을 사용해 인종(흑·백), 성별(여·남), 종교(기독·이슬·유대)라는 세 편향 축을 정의하고, 각 축에 해당하는 정체성 표식 토큰을 민감 토큰 집합으로 구축하였다. 모델은 인코더‑전용 BERT·RoBERTa와 디코더‑전용 Llama‑3.2‑3B, Qwen‑3‑4B·8B을 대상으로, 기본 파인튜닝/프롬프트 기반 zero‑shot 설정 외에 그룹 밸런싱, 카운터팩추얼 데이터 증강(CDA), 드롭아웃, 어텐션 엔트로피, 인과적 디바이아스 등 7가지 디바이아스 기법을 적용했다.
설명 방법은 16가지로, 어텐션 기반(Attention, Rollout, Flow), 그래디언트 기반(Grad, Input×Grad, Integrated Gradients), 퍼투베이션 기반(Occlusion, Occlusion‑abs), SHAP·KernelSHAP, DeepLift, DecompX, Progressive Inference 등을 포함한다. 각 방법은 토큰 수준 기여도를 산출하고, 민감 토큰에 대한 최대 절대 기여값을 “민감 토큰 의존도”로 정의했다.
RQ1(편향 예측 식별)에서는, 편향이 의심되는 샘플에 대해 민감 토큰 의존도가 높은 경우가 실제로 그룹 간 정확도·FPR·FNR 격차가 크게 나타나는 것과 강하게 상관함을 확인했다. 특히 Integrated Gradients와 KernelSHAP이 가장 높은 AUC(≈0.87)를 기록했으며, LLM이 생성한 자연어 라쇼날보다 일관된 성능을 보였다.
RQ2(공정 모델 선택)에서는, 동일 데이터셋에 대해 여러 디바이아스 기법을 적용한 모델들의 공정성 지표(Disp acc, Disp fpr, Disp fnr, Avg IU)를 설명 기반 의존도 평균값으로 순위 매겼다. 결과는 설명 점수가 낮은 모델이 반드시 공정도가 높은 것과 일치하지 않으며, 특히 어텐션 기반 설명은 편향 신호를 과소평가하는 경향을 보여 자동 모델 선택에 부적합함을 드러냈다.
RQ3(학습 중 편향 완화)에서는, 민감 토큰 의존도를 손실 함수에 추가하는 “설명 기반 정규화”를 적용했다. 이 방법은 기존 디바이아스 기법과 결합될 때, 그룹 간 정확도 격차를 평균 12% 감소시키면서 전체 성능 저하를 1.3% 이하로 억제했다. 특히 BERT에 적용했을 때 Disp acc이 2.05→0.00, Avg IU가 3.17→0.66으로 크게 개선되었다.
전체적으로, 입력 기반 설명은 (1) 편향 예측 탐지와 (3) 학습 단계에서의 편향 억제에 유용하지만, (2) 모델 선택 기준으로서는 신뢰성이 낮다. 또한, 설명 방법마다 민감도와 계산 비용이 크게 차이나며, 대형 LLM에서는 프롬프트 설계가 설명 품질에 영향을 미친다. 연구는 설명 기반 편향 감시가 실제 운영 시스템에 적용될 가능성을 제시하면서도, 설명 자체의 불완전성 및 모델이 의도적으로 설명을 조작할 위험성을 경고한다.
댓글 및 학술 토론
Loading comments...
의견 남기기