문법적 성별이 텍스트‑이미지 모델 시각에 미치는 영향

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 프랑스어·스페인어·독일어·이탈리아어·러시아어 등 5개 성별 언어와 영어·중국어 2개 중립 언어를 대상으로, 문법적 성별이 실제 의미와 충돌하는 단어들을 이용한 800개의 프롬프트를 생성하였다. DALL·E 3, Ideogram v3, Flux Pro 1.1 세 모델에 각각 28 800장의 이미지를 생성해 분석한 결과, 남성형 문법 표식이 포함된 프롬프트는 평균 73 %의 남성 이미지, 여성형 표식은 38 %의 여성 이미지를 유도했으며, 이는 성중립 영어(남성 22 %, 여성 28 %)와 큰 차이를 보였다. 고자원 언어일수록 효과가 강하고, 모델 구조에 따라 민감도가 달라지는 등 언어 구조 자체가 시각 생성 편향에 중요한 역할을 함을 확인하였다.

상세 분석

본 연구는 텍스트‑이미지(T2I) 모델의 편향을 기존의 인구통계·스테레오타입 중심 분석에서 한 단계 확장한다. ‘문법적 성별’이라는 언어학적 변수를 실험적 조작 변수로 삼아, 동일한 의미적 내용(예: “guard”)이지만 언어마다 다른 문법적 성별(프랑스어 une sentinelle → 여성형, 독일어 der Wächter → 남성형)으로 표기될 때 모델이 생성하는 시각적 결과가 어떻게 달라지는지를 정량화하였다.

데이터셋 설계
- 5개 성별 언어당 40개의 ‘성별 불일치’ 단어를 선정, 총 200개 단어를 확보.
- 각 단어는 직업·성격·권력·사회적 지위·관계 등 5가지 사회적 차원에 고르게 분포하도록 설계.
- 인간 언어학자와 다중 주석자를 통해 문법적 성별과 사회적 성별 기대가 실제로 불일치함을 검증하고, 사전·사전학습된 LLM을 활용해 후보 단어를 보강하였다.
프롬프트 및 이미지 생성
- “A photo of a

문법적 성별이 텍스트‑이미지 모델 시각에 미치는 영향

초록

상세 분석

댓글 및 학술 토론

의견 남기기