LLM 편향 지표는 할당형 피해를 포착할 수 있는가
초록
본 논문은 대형 언어 모델(LLM)의 기존 편향 지표가 자원 할당 과정에서 발생하는 할당형 피해를 정확히 측정하는지 검증한다. 10개의 LLM과 두 가지 할당 과제(이력서 선별, 에세이 채점)를 대상으로 평균 성능 격차·분포 거리 기반 지표와 새로운 순위-이분 상관계수(RB)를 비교 평가한다. 실험 결과, 전통적인 지표는 할당 결과의 불균형을 잘 예측하지 못하지만 RB는 높은 상관성과 모델 선택 시 유용성을 보인다.
상세 분석
이 연구는 “편향 지표가 예측 단계에만 초점을 맞추고, 실제 의사결정 단계에서의 할당형 피해를 반영하지 못한다”는 근본적인 가정을 검증한다. 먼저 저자들은 할당형 피해를 정의하고, 이를 정량화하기 위해 두 가지 공정성 기준인 인구통계적 평등(DP)과 동등기회(EO) 차이를 사용한다. 이때 할당 갭(ΔDP, ΔEO)은 특정 그룹이 선택된 비율 혹은 자격을 갖춘 후보가 선택된 비율의 차이로 측정된다.
전통적인 편향 지표는 (1) 평균 성능 격차(δ), (2) Jensen–Shannon Divergence(JSD), (3) Earth Mover’s Distance(EMD)와 같은 분포 기반 거리 측정으로 구성된다. 이러한 지표들은 모델이 출력한 점수 자체의 차이를 평가하지만, 점수의 분포 형태가 의사결정에 미치는 영향을 무시한다. 특히 점수 분포가 비대칭이거나 꼬리가 두꺼운 경우(예: 이력서 선별 작업)에는 평균 차이나 거리 측정이 실제 할당 결과와 상관관계가 낮아진다.
이에 대한 대안으로 제안된 순위-이분 상관계수(RB)는 “그룹 소속과 순위 간의 상관관계”를 직접 측정한다. 구체적으로, 모델이 두 그룹 간 후보를 어느 쪽으로 더 선호하는지(favorable pair)와 반대로 선호하는지(unfavorable pair)의 비율 차이로 정의된다. 이 방식은 모델이 실제로 할당할 후보를 어떻게 순위 매기는지를 그대로 반영하므로, 할당형 피해를 평가하는 데 더 직관적이다.
실험 설계는 두 가지 할당 과제에서 10개의 LLM을 평가한다. 이력서 선별에서는 8개의 교차 인종·성별 그룹을, 에세이 채점에서는 11개의 언어·국가 그룹을 대상으로 각각 4·10개의 후보 풀을 구성하고, k=1·2의 할당 쿼터를 적용한다. 각 모델에 대해 위 네 가지 편향 지표와 RB를 계산하고, 실제 할당 결과(ΔDP, ΔEO)와 Pearson 상관관계를 구했다.
결과는 다음과 같다. (1) δ, JSD, EMD는 이력서 선별에서는 ΔDP·ΔEO와 거의 상관이 없으며, 에세이 채점에서는 어느 정도 양의 상관을 보였지만 여전히 낮았다. (2) RB는 두 과제 모두에서 0.86 이상의 높은 상관계수를 기록했으며, 특히 이력서 선별에서 가장 일관된 예측력을 보였다. (3) 모델 선택 시 NDCG 지표를 활용한 평가에서도 RB 기반 순위가 이상적인 할당 갭 순위와 가장 근접했으며, 기존 지표는 오히려 더 편향된 모델을 “공정”하게 평가하는 역효과를 나타냈다. (4) 그룹별 분석에서는 전통 지표가 특정 그룹에 대해 과소·과대 평가하는 경향이 뚜렷했으며, RB는 모든 그룹에 대해 일관된 추정치를 제공했다.
또한 점수 분포의 왜도와 첨도 분석을 통해, 이력서 선별 점수가 크게 왼쪽으로 치우치고 꼬리가 두꺼운 반면, 에세이 채점 점수는 정규분포에 가깝다는 사실을 확인했다. 이는 전통 지표가 정규성 가정을 암묵적으로 전제하고 있기 때문에, 비정규 분포에서는 신뢰도가 급격히 떨어진다는 중요한 통찰을 제공한다.
결론적으로, 기존의 평균·분포 기반 편향 지표는 “예측 → 할당” 파이프라인에서 발생하는 구조적 손실을 포착하지 못한다. 대신 순위-이분 상관계수와 같이 실제 할당 메커니즘을 직접 모델링하는 지표가 할당형 피해를 정확히 측정하고, 모델 감사·선택 과정에서 실질적인 보호 효과를 제공한다는 점을 실증적으로 입증하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기