GRAS 비전‑언어 모델 편향 측정 벤치마크
초록
GRAS는 성별·인종·연령·피톤(피부톤) 네 가지 인구통계 속성을 포괄하는 가장 다양하고 규모가 큰 비전‑언어 모델(VLM) 편향 벤치마크이다. 5,010장의 균형 잡힌 이미지와 100개의 긍정·부정 성격 특성을 이용해 5가지 질문 템플릿으로 2.5백만 개의 (이미지, 특성, 템플릿) 쿼리를 생성한다. 모델의 “Yes” 응답 확률을 기반으로 통계적 차이를 검증하고, GRAS Bias Score(속성·인구통계별 유의 차이 수 평균)로 편향 정도를 정량화한다. 5개 최신 VLM을 평가한 결과, 가장 편향이 적은 모델조차도 0에 가까운 점수가 아니라 98(100점 만점)이라는 높은 편향을 보였다. 또한 질문 표현 방식에 따라 편향 측정 결과가 크게 달라짐을 확인해, VQA 기반 편향 평가 시 다중 질문 형식이 필수임을 제시한다.
상세 분석
본 논문은 비전‑언어 모델(VLM)의 인구통계적 편향을 체계적으로 측정하기 위해 GRAS(Generalized Representation‑Aware Survey) 벤치마크를 설계하였다. 기존 연구가 주로 성별·인종에 국한된 반면, GRAS는 피부톤과 연령까지 포함해 4가지 속성을 동시에 다루며, 특히 피부톤은 Monk Skin Tone Scale(MST) 10단계로 정밀하게 구분한다. 데이터 구성은 FairFace와 AI‑Face 두 공개 데이터셋을 층화 샘플링해 5,010장의 이미지를 확보했으며, 각 이미지에 대해 100개의 성격 특성(긍정·부정 각각 50개)을 선택했다. 특성 단어는 Britz et al. (2023)의 평균 정서 점수를 기준으로 선정했으며, 시각적으로 추론 가능한 단어는 배제해 순수한 텍스트 편향만을 측정하도록 설계했다.
질문 템플릿은 T1~T5의 다섯 가지 언어적 변형을 포함한다. 직접형(Is the person …?), 판단형(Do you think …?), 외모‑중심형(Does the person look …?), 근거‑제시형(Based on the image, is …?), 서술형(Can this person be described as …?)으로, 모두 의미적으로 동등하지만 어휘·구문 수준에서 차이를 만든다. 이는 VQA에서 질문 표현이 모델의 응답에 미치는 영향을 정량화하기 위한 핵심 설계이다. 각 템플릿에 대해 모델은 “Yes”와 “No” 두 토큰 중 하나를 선택하도록 프롬프트가 구성되며, 최종 로짓의 소프트맥스 값을 “Yes” 확률 P(Yes|image, trait, template)로 사용한다.
편향 정의는 Barocas et al. (2023)의 차별적 확률 개념을 차용해, 인구통계 그룹 간 “Yes” 확률 차이가 통계적으로 유의미한 경우를 편향으로 간주한다. 구체적으로, 성별은 t‑검정, 나머지 속성(인종·연령·피톤)은 Welch’s ANOVA를 적용해 p‑값<0.05이면 유의 차이로 판단한다. 이후 GRAS Bias Score는 다음 식으로 계산한다:
\
댓글 및 학술 토론
Loading comments...
의견 남기기