동등한 접근 불균형한 대화 LLM 상호작용 공정성 카운터팩추얼 감사
초록
본 논문은 접근 차단이 거의 없는 최신 LLM(GPT‑4, LLaMA‑3.1‑70B)에서, 인구통계적 정체성에 따라 응답의 어조·불확실성·감성 등이 어떻게 달라지는지를 카운터팩추얼·쌍대 프롬프트 설계로 정량화한다. 접근 평등성은 0% 거부율로 확인했지만, GPT‑4는 ‘젊은 남성’에게서 헤징이 유의하게 높고, LLaMA는 정체성별 감성 점수 차이가 크게 나타났다. 자동화된 감성·정중도·헤징 지표와 짝지어진 통계 검정(p<0.05)을 통해 모델‑특이적 상호작용 불공정성을 드러내며, 단순 거부율 기반 감사만으로는 충분치 않음을 주장한다.
상세 분석
본 연구는 LLM 공정성 평가 패러다임을 ‘접근 수준’에서 ‘상호작용 수준’으로 확장한다는 점에서 의미가 크다. 특히 카운터팩추얼·쌍대 프롬프트 설계를 통해 연령·성별·국적이라는 세 가지 보호 속성을 독립적으로 변형하고, 동일한 업무 내용(경력 조언)과 고정된 출력 포맷을 유지함으로써 정체성 효과를 정밀하게 분리한다. 이는 기존 연구가 종종 겪는 ‘프롬프트 변이·내용 차이·길이 차이’라는 혼동 요인을 최소화한다는 점에서 방법론적 강점이다.
모델 선택도 흥미롭다. GPT‑4는 폐쇄형, 고도 정렬된 모델이며 LLaMA‑3.1‑70B는 오픈소스이며 정렬 방식이 다르다. 두 모델 모두 저온( T=0.2)·top‑p=0.9 설정으로 변동성을 억제했지만, 시드 고정 없이 실운용 환경을 그대로 재현한 점은 결과의 외적 타당성을 높인다.
평가 지표는 감성(senti‑ment), 정중도(politeness), 헤징(hedging) 등 자동화된 언어학적 메트릭을 활용한다. 감성 점수는 VADER‑like 사전 기반 스코어, 정중도는 Stanford Politeness Corpus 기반 분류기, 헤징은 ‘might’, ‘could’, ‘perhaps’ 등 불확실성을 나타내는 토큰 비율로 정의한다. 이러한 지표는 인간 평가와의 상관관계가 보고된 바 있어 신뢰성을 어느 정도 확보한다.
통계 분석은 동일 프롬프트·정체성 쌍에 대해 paired t‑test 혹은 Wilcoxon signed‑rank test을 적용하고, 다중 비교 보정을 위해 Bonferroni 방법을 사용한다. 결과는 GPT‑4가 ‘젊은 남성’ 그룹에서 헤징 비율이 평균 12%p 상승(p<0.01)했으며, LLaMA는 ‘이민자 vs. 미국 출생’ 구분에서 감성 평균 차이가 0.18(p<0.05)이라는 구체적인 수치를 제시한다. 이는 모델‑특이적 편향이 존재함을 통계적으로 입증한다.
하지만 몇 가지 한계도 존재한다. 첫째, 한 도메인(경력 조언)과 30개의 프롬프트에 국한돼 있어 결과의 일반화 가능성이 제한된다. 둘째, 각 정체성 변형당 단일 응답만을 수집했기 때문에 모델의 내부 변동성을 완전히 포착하지 못한다. 셋째, 자동 메트릭에 의존함으로써 미묘한 뉘앙스(예: 문화적 정중도 차이)를 놓칠 위험이 있다. 넷째, ‘정체성’ 라벨이 단순히 연령·성별·국적 3요소만을 포함해 실제 사회적 교차성을 충분히 반영하지 못한다.
향후 연구에서는 (1) 다양한 도메인(법률, 의료, 교육)과 다중 프롬프트를 확대하고, (2) 인간 평가자를 통한 주관적 품질 검증을 병행하며, (3) 교차성(cross‑intersection) 정체성(예: 젊은 여성 이민자)까지 포함한 다중 보호 속성 실험을 설계할 필요가 있다. 또한, 자동 메트릭의 신뢰성을 높이기 위해 LLM 자체를 평가자 모델로 활용하는 ‘LLM‑in‑the‑loop’ 방식을 도입하면 보다 정교한 상호작용 공정성 측정이 가능할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기