정렬 튜닝이 비디오 확산 모델의 사회적 편향에 미치는 영향

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 텍스트‑투‑비디오 확산 모델에 인간 선호를 학습한 보상 모델을 적용해 정렬(Alignment) 튜닝을 수행할 때 발생하는 성별·인종 편향을 체계적으로 추적한다. 이를 위해 이벤트 기반 프롬프트와 다중‑Granular 지표를 활용한 평가 프레임워크 VideoBiasEval을 제안하고, 인간 선호 데이터, 보상 모델, 정렬‑튜닝된 비디오 모델 간의 편향 전파 과정을 정량·정성 분석한다. 실험 결과, 정렬 튜닝이 시각적 품질과 시간적 일관성은 향상시키지만, 기존 편향을 증폭하고 시간적으로 안정된 고정관념을 강화한다는 점을 밝혀낸다.

상세 분석

VideoBiasEval은 사건 ⟨행위자, 동사, 맥락⟩ 구조를 기반으로 42개의 사회적 의미를 가진 동사와 4가지 성별, 7가지 인종을 조합한 프롬프트 집합을 만든다. 생성된 비디오에 대해 대규모 시각‑언어 모델(VLM) (Qwen2‑VL 7B, InternVL 8B 등)을 이용해 프레임별로 성별·인종 라벨을 추출하고, (1) 전체 인종 편향, (2) 인종별 성별 편향, (3) 모델 간 속성 분포 변화, (4) 시간적 속성 안정성(TAS) 네 가지 지표를 계산한다.

실험에서는 인간 선호 데이터셋 HPDv2와 Pick‑a‑Pic에서 남성·여성 선호가 비대칭적으로 나타나는 것을 확인하고, 이를 학습한 이미지 보상 모델(HPSv2.0/2.1, PickScore)이 동일한 편향을 더욱 확대한다는 사실을 정량화했다. 이후 VideoCrafter‑2 기반 비디오 모델을 해당 보상 모델로 정렬‑튜닝했을 때, 원본 모델에 비해 시각적 품질과 프레임 일관성은 크게 개선되지만, 인종·성별 분포는 더욱 불균형해지고, TAS 분석에서 편향된 속성이 시간에 걸쳐 지속되는 경향이 뚜렷해졌다.

특히, 남성‑선호 보상 모델을 사용하면 남성 캐릭터가 주도적인 동작(운전, 작업 등)에서 과도하게 나타나고, 여성‑선호 모델은 여성 캐릭터가 가정·돌봄 동작에 집중되는 전형적인 고정관념이 강화된다. 인종 측면에서는 백인 비율이 전체 60% 이상으로 유지되며, 소수 인종은 거의 등장하지 않거나 부수적인 배경 역할에 머무른다. 이러한 현상은 정렬 튜닝이 “선호”라는 주관적 신호를 그대로 반영함으로써 사회적 편향을 시스템 수준에서 고정시키는 메커니즘을 보여준다.

논문은 또한 편향을 제어하기 위한 실험으로, 인위적으로 성별·인종 비율을 조정한 보상 데이터셋을 구축하고 이를 기반으로 정렬‑튜닝을 수행하면, 생성 비디오의 속성 분포를 원하는 방향으로 조정할 수 있음을 시연한다. 이는 데이터 구성과 보상 설계 단계에서 편향 완화 전략을 적용할 수 있는 가능성을 제시한다.

전반적으로 이 연구는 텍스트‑투‑비디오 파이프라인에서 인간 선호 기반 정렬이 품질 향상과 동시에 편향 증폭이라는 양면성을 갖는다는 중요한 교훈을 제공하며, 향후 공정한 비디오 생성 시스템을 설계하기 위해 편향‑인식 평가와 보상 설계가 필수적임을 강조한다.

정렬 튜닝이 비디오 확산 모델의 사회적 편향에 미치는 영향

초록

상세 분석

댓글 및 학술 토론

의견 남기기