공간 지능을 시험한다 텍스트‑이미지 모델의 공간 능력 벤치마크

공간 지능을 시험한다 텍스트‑이미지 모델의 공간 능력 벤치마크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 텍스트‑이미지 생성 모델이 복잡한 공간 관계를 이해하고 구현하는 능력을 평가하기 위해 SpatialGenEval 이라는 새로운 벤치마크를 제안한다. 25개의 실제 장면에 대해 1,230개의 길고 정보가 풍부한 프롬프트와 10개의 서브 도메인을 포함한 10개의 다중 선택형 질문‑답을 설계했으며, 23개의 최신 모델을 평가한 결과 고차원 공간 추론이 여전히 큰 병목임을 확인하였다. 또한, 동일한 설계 원칙을 적용해 SpatialT2I 데이터셋(15,400쌍) 을 구축하고, 이를 활용해 Stable Diffusion‑XL, UniWorld‑V1, OmniGen2 등을 미세조정한 결과 평균 4‑5% 정도의 성능 향상을 달성하였다.

상세 분석

SpatialGenEval은 기존 T2I 벤치마크가 짧고 정보가 희박한 프롬프트에 의존해 객체 존재 여부나 기본 속성만을 검증하는 한계를 극복한다는 점에서 혁신적이다. 저자들은 공간 지능을 Spatial Foundation, Perception, Reasoning, Interaction 이라는 4개의 상위 도메인으로 계층화하고, 각각을 세분화한 10개의 서브 도메인(예: 객체 위치, 방향, 레이아웃, 근접성, 가림, 운동, 인과관계 등)을 정의한다. 각 프롬프트는 이 10개 서브 도메인을 모두 포함하도록 설계돼 평균 150~200단어에 달하는 긴 문장을 구성한다. 이는 모델이 복합적인 공간 제약을 동시에 해석하고 시각화해야 함을 의미한다.

평가 방식은 다중 선택형 질문 10개를 각 프롬프트에 매칭시켜, 이미지‑기반 MLLM(예: Qwen2.5‑VL‑72B)에게 정답을 도출하도록 한다. ‘None’ 옵션을 추가해 이미지가 질문을 충족하지 못할 경우 무조건 추측을 방지하고, 질문 자체도 인간 검증을 거쳐 답변 누수를 차단한다. 이러한 설계는 기존 yes/no 혹은 단순 클래스 정확도와 달리 세부적인 오류 유형을 정량화할 수 있게 한다.

실험 결과, 23개의 최신 모델(Stable Diffusion‑XL, DALL·E 3, Midjourney V6 등)은 객체와 속성 수준에서는 90% 이상 높은 정확도를 보였지만, 위치·방향·가림·인과 관계와 같은 고차원 서브 도메인에서는 40~55% 수준으로 급격히 떨어진다. 특히 Spatial Reasoning (상대적 거리, 3D 깊이 추론, 인과 관계)에서 가장 큰 격차가 나타났으며, 이는 현재 확산 모델이 텍스트 인코더와 UNet 구조에 공간 논리를 충분히 내재화하지 못하고 있음을 시사한다.

데이터 중심 접근법을 검증하기 위해 저자들은 1,230개의 프롬프트를 14개의 상위 모델에 입력해 생성된 이미지 15,400장을 수집하고, Gemini 2.5 Pro를 이용해 프롬프트를 재작성해 텍스트‑이미지 정합성을 높였다. 이를 SpatialT2I 데이터셋으로 정제한 뒤, Stable Diffusion‑XL, UniWorld‑V1, OmniGen2를 각각 10~20 epoch 미세조정한 결과, 전체 평균 정확도가 4.2%, 5.7%, 4.4% 상승했으며, 특히 Spatial Interaction 과 Spatial Reasoning 에서 눈에 띄는 개선이 관찰되었다. 이는 모델이 더 풍부한 공간 제약을 학습함으로써 “어디에”, “어떻게”, “왜”라는 질문에 대한 시각적 표현 능력이 향상된 것을 의미한다.

한계점으로는 프롬프트 설계가 인간 주관에 크게 의존한다는 점, MLLM 평가자의 이미지 이해 능력에 따라 정답 라벨이 변동될 가능성, 그리고 현재 실험이 주로 2D 평면 이미지에 국한돼 3D 장면이나 동영상으로 확장하기엔 추가 연구가 필요하다는 점을 들 수 있다. 향후 연구에서는 자동화된 프롬프트 생성, 다중 모달 평가(예: 비디오·깊이 지도), 그리고 공간 논리를 명시적으로 모델에 통합하는 구조적 개선이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기