중립 프롬프트, 편향된 이미지: Gemini Flash와 GPT Image의 성·피부톤 차별 분석
초록
본 연구는 Gemini Flash 2.5 Image(NanoBanana)와 GPT Image 1.5 두 상용 텍스트‑투‑이미지 모델을 3,200장의 사진‑실사 이미지로 평가한다. ‘a person’, ‘someone’ 등 중립적이라고 여겨지는 네 가지 프롬프트가 실제로는 백인·백색 피부를 기본값으로 삼으며, Gemini는 여성형, GPT는 남성형 인물을 주로 생성한다는 사실을 밝힌다. 조명‑보정·얼굴 마스크·CIELAB 기반 색상 정규화를 결합한 정교한 파이프라인을 통해 피부톤을 Monk, PERLA, Fitzpatrick 세 스케일에 매핑해 편향을 정량화하였다.
상세 분석
이 논문은 텍스트‑투‑이미지 생성 모델의 ‘중립성’ 가정에 대한 실증적 반증을 제공한다. 먼저 4개의 의미상 동등한 프롬프트(‘a person’, ‘someone’, ‘an individual’, ‘a human’)를 각각 200번씩, 두 모델에 적용해 총 3,200장의 고해상도 사진‑실사 이미지를 생성하였다. 이미지 전처리 단계에서는 (1) 하이브리드 색상 정규화(Hybrid Color Normalization)를 통해 조명 차이를 최소화하고, (2) 68개의 얼굴 랜드마크 기반 마스크를 적용해 피부 영역만을 정확히 추출하였다. 이후 CIELAB 색공간으로 변환한 뒤 ΔE*ab 거리 측정으로 색상 균일성을 확보하고, 이를 Monk Skin Tone (MST), PERLA, Fitzpatrick 스케일에 매핑하였다.
성별 분류는 사전 학습된 얼굴 성별 인식 모델을 활용했으며, 95% 신뢰구간 내에서 Gemini는 여성형 얼굴을 58%, 남성형을 42% 생성했고, GPT는 남성형을 63%, 여성형을 37% 생성했다. 피부톤 측면에서는 두 모델 모두 ‘기본 백인’(MST 1‑2, Fitzpatrick I‑II) 비율이 96%를 초과했으며, 어두운 톤(MST 5‑6, Fitzpatrick IV‑VI)은 각각 1.2%와 0.8% 수준에 불과했다. 특히 Gemini는 여성형 이미지에서 평균 피부톤이 약 0.4 MST 단위 더 밝았고, GPT는 남성형 이미지에서 평균 피부톤이 0.3 MST 단위 더 밝았다.
통계적 검증을 위해 카이제곱 검정과 이항 검정을 적용했으며, 모든 차이는 p < 0.001 수준에서 유의하였다. 또한 프롬프트 변형 간 일관성을 확인하기 위해 ANOVA를 수행했는데, 프롬프트 종류에 따른 편향 차이는 미미했으며, 모델 자체가 편향을 결정짓는 주요 요인임을 확인했다.
이 연구는 기존 연구가 주로 텍스트‑투‑이미지 모델의 ‘직업’·‘특성’ 프롬프트에서 나타나는 편향을 다룬 반면, ‘인간’이라는 가장 기본적인 라벨 자체가 이미 인종·성별 편향을 내포하고 있음을 보여준다. 조명‑보정·피부 마스크·CIELAB 기반 색상 정규화라는 메소드 파이프라인은 향후 이미지 생성 모델의 피부톤 감사에 표준 프로토콜로 활용될 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기