3D 공간 이해를 위한 GR3D와 MLLM 결합

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 멀티모달 대형 언어 모델(MLLM)이 2D 시각 이해에 뛰어나지만 3D 공간 추론에는 한계가 있다는 점을 지적한다. 이를 극복하기 위해 입력 이미지 집합으로부터 객체에 고유 ID를 부여하고, 각 객체의 3D 기하 정보를 텍스트 형태로 인코딩한 ‘Geometrically Referenced 3D scene representations (GR3D)’를 제안한다. GR3D는 3D 재구성, 객체 클러스터링, 기하 속성 추출 과정을 거쳐 이미지와 텍스트를 정확히 매핑한다. 이 표현을 MLLM에 그대로 제공함으로써 추가 학습 없이도 공간 관계, 거리, 방향 등을 언어 기반 수학적 추론으로 해결한다. VSI‑Bench에서 GPT‑5에 적용했을 때 전체 정확도가 8 % 상승하고, 레이아웃 중심 과제에서는 11 % 이상 향상되는 등 현존 최고 성능을 기록한다.

상세 분석

GR3D는 기존 3D‑멀티모달 접근법과 달리 ‘텍스트‑이미지 교차 참조’를 핵심 설계 원칙으로 삼는다. 먼저 최신 신경망 기반 3D 재구성 모델(DUSt3R, VGGT 등)을 활용해 무보정·무포즈 이미지 집합으로부터 밀집 깊이 지도와 전역 좌표계의 포인트 클라우드를 생성한다. 재구성 결과는 스케일이 불명확하므로, 실세계에서 일반적으로 관찰되는 물체(천장, 책상 등)의 높이를 기준으로 전역 스케일을 추정한다. 이후 2D 의미분할(Mask2Former) 결과를 포인트 클라우드에 역투사(back‑project)하고, 복셀 그리드 기반 라벨 집계로 객체 클러스터를 형성한다. 이 과정은 포인트 클라우드가 노이즈가 많아도 이미지 기반 라벨링의 강인성을 활용할 수 있다는 장점이 있다.

각 객체 클러스터에 대해 경계 상자(bounding box)와 원통, 구와 같은 기본 기하 프리미티브를 RANSAC 혹은 학습 기반 피팅으로 추정한다. 이렇게 얻어진 중심 좌표, 방향, 길이·반지름·높이 등은 “type: bounding box; center:

3D 공간 이해를 위한 GR3D와 MLLM 결합

초록

상세 분석

댓글 및 학술 토론

의견 남기기