공간지능 종합 평가
초록
본 논문은 멀티모달 대형 언어 모델(MLLM)의 공간 지능을 체계적으로 측정하기 위해 5천 개의 고품질 질문‑답변 샘플과 30개의 세부 과제로 구성된 SpatialScore 벤치마크를 제안한다. 40개 모델을 평가한 결과 현재 모델들은 인간 수준에 크게 미치지 못함을 확인하였다. 이를 개선하기 위해 33만 1천 개의 멀티모달 QA를 포함하는 SpatialCorpus를 구축해 파인튜닝을 수행했으며, 툴 기반 멀티에이전트 시스템 SpatialAgent를 설계해 훈련 없이도 공간 추론 성능을 크게 향상시켰다. 데이터, 코드, 모델은 모두 공개한다.
상세 분석
SpatialScore는 기존 공간 지능 벤치마크가 갖는 “과제 단순화”와 “평가 범위 제한”이라는 두 가지 근본적 한계를 극복하도록 설계되었다. 첫째, 3D 데이터셋(ScanNet++, Omni3D, WildRGB‑D 등)에서 정확한 3D 주석을 활용해 질문‑답변 쌍을 자동 생성하고, LLM 기반 템플릿 변형으로 언어 다양성을 확보한다. 여기서 생성된 2.3K QA는 판단형, 다중선택형, 개방형으로 균형 있게 배분되며, 숫자형 값(거리, 깊이, 호모그래피 등)에는 정교한 교란(distractor) 생성 전략을 적용해 모델의 미세한 오류 탐지를 가능하게 한다. 둘째, 기존 23개 공개 데이터셋을 통합해 63,857개의 후보를 확보하고, GPT‑OSS‑120B를 이용해 시각적 의존성이 낮은 질문을 사전 필터링한다. 이후 인간 검증 과정을 거쳐 최종 5,025개의 고품질 샘플을 선정했으며, 이는 30개의 세부 과제로 10개의 직관적 카테고리(예: 정신 애니메이션, 깊이 추정, 카메라 모션 등)로 구조화된다.
평가 결과는 40개의 최신 MLLM(예: Qwen‑VL, LLaVA, Gemini‑Pro 등)이 전반적으로 낮은 정확도를 보이며, 특히 연속적인 시간 추론, 카메라 포즈 추정, 3D 객체 관계 파악에서 큰 격차가 드러났다. 인간 평균 점수와 비교했을 때 평균 20%p 이하의 차이를 보이며, 이는 현재 모델이 “시각‑언어 통합”보다는 “시각‑언어 별도 처리”에 머물러 있음을 시사한다.
이러한 한계를 해소하기 위해 저자들은 두 갈래 접근법을 제시한다. 첫 번째는 SpatialCorpus라는 대규모 학습용 데이터셋을 구축하는 것이다. 331K개의 멀티모달 QA는 실세계 이미지·비디오와 시뮬레이션 데이터를 모두 포함하고, 질문 유형별로 균형을 맞추어 파인튜닝 시 과적합을 방지한다. 실험에서는 Qwen3‑VL을 이 데이터로 미세조정했을 때, 주요 카테고리 평균 정확도가 8~15%p 상승했으며, 특히 카메라 모션과 3D 객체 거리 추정에서 두드러진 개선을 보였다.
두 번째는 SpatialAgent라는 툴 오케스트레이션 프레임워크이다. 12개의 전용 공간 인식 툴(깊이 추정, 카메라 포즈, 객체 검출, 움직임 추적 등)을 API 형태로 래핑하고, MLLM이 “Plan‑Execute”와 “ReAct” 두 방식으로 툴을 호출하도록 설계했다. Plan‑Execute는 복잡한 문제를 단계별 서브태스크로 분해해 순차적으로 실행하고, ReAct는 추론 과정 중에 즉시 툴 호출·피드백을 받아 답안을 수정한다. 툴 호출 로그와 프롬프트 설계가 상세히 기술돼 있어 재현성이 높다. 훈련 없이 적용했음에도 불구하고, 기존 모델 대비 평균 12%p 이상의 정확도 향상을 달성했으며, 특히 “카메라가 왼쪽으로 이동했는가?”와 같은 동적 질문에서 인간 수준에 근접한 성능을 기록했다.
전체적으로 이 논문은 (1) 포괄적이고 균형 잡힌 벤치마크, (2) 대규모 학습용 코퍼스, (3) 툴 기반 에이전트라는 세 축을 통해 공간 지능 연구의 인프라를 크게 확장한다는 점에서 의의가 크다. 다만, 툴 오케스트레이션에 의존하는 방식은 툴 자체의 정확도와 호환성에 민감하며, 현재 12개의 툴이 모든 도메인을 커버하지 못한다는 제한점이 있다. 향후 연구에서는 툴 자동 선택 메커니즘, 멀티에이전트 협업, 그리고 실시간 로봇 제어와 같은 실제 응용으로 확장하는 것이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기