GenEval 2 텍스트 이미지 평가 벤치마크 드리프트 극복
초록
본 논문은 기존 텍스트‑투‑이미지 자동 평가 벤치마크인 GenEval이 최신 모델의 발전에 따라 인간 판단과의 정렬이 크게 흐려지는 ‘벤치마크 드리프트’ 현상을 겪고 있음을 실증한다. 이를 해결하기 위해 시각 원시 개념의 커버리지를 확대하고 복합성 수준을 높인 GenEval 2를 제안하고, 시각 원시 개념별 판단을 결합한 Soft‑TIFA 평가 방식을 도입한다. 실험 결과 Soft‑TIFA가 인간 평가와 높은 상관관계를 유지하며, 기존 VQAScore와 같은 전역적 판정보다 드리프트에 강함을 보인다. 논문은 지속적인 벤치마크 감시와 업데이트의 필요성을 강조한다.
상세 분석
GenEval이 처음 발표될 때는 인간 평가와 높은 상관성을 보였지만, 이후 GPT‑4‑V, Stable Diffusion XL, DALL·E 3 등 최신 T2I 모델이 급격히 향상되면서 정적 판정 모델(VQAScore 등)이 인간의 미세한 시각적 차이를 포착하지 못하는 현상이 드러났다. 저자들은 ‘벤치마크 드리프트’를 정의하고, 이를 정량화하기 위해 2023‑2024년 사이에 발표된 12개 최신 모델에 대해 GenEval 점수와 인간 라벨 간의 절대 오차가 최대 17.7%에 달함을 보고한다. 이는 기존 프롬프트 풀이가 모델의 현재 능력을 충분히 도전하지 못하고, 오히려 판정 모델이 과거 수준에 머물러 있다는 증거다.
이를 해결하기 위해 GenEval 2는 두 가지 설계 원칙을 채택한다. 첫째, ‘시각 원시 개념(primitive visual concepts)’—색, 질감, 형태, 위치, 관계 등—을 체계적으로 포함한 프롬프트 풀을 구축해 모델이 각각의 요소를 정확히 재현하도록 강제한다. 둘째, 프롬프트를 다중 원시 개념의 조합으로 설계해 복합성(compositionality)을 높이고, 단일 전역 점수 대신 각 원시 개념에 대한 별도 판단을 수집한다. Soft‑TIFA는 이러한 다중 판단을 베이지안 가중 평균으로 결합해 최종 점수를 산출한다.
실험에서는 GenEval 2와 Soft‑TIFA가 기존 GenEval·VQAScore 대비 인간 상관계수(r)에서 0.68→0.84로 크게 개선되었으며, 최신 모델에 대해서도 오차가 5% 이하로 억제되는 것을 확인했다. 또한, 원시 개념별 오류 분석을 통해 모델이 색 재현은 우수하지만 공간 관계 파악에 약함을 드러내, 향후 연구 방향을 제시한다. 마지막으로 저자들은 자동 평가 벤치마크가 영구적으로 인간 정렬을 유지하려면 주기적인 프롬프트 갱신과 판정 모델 재학습이 필수임을 강조한다.