공간 인지를 위한 카메라 가이드 융합 대형 언어 모델

초록

대형 비전‑언어 모델(VLM)은 멀티모달 이해에서 뛰어난 성능을 보이지만, 거리 추정·크기 비교·다중 시점 일관성 등 3D 공간 추론에서는 여전히 한계를 가진다. 기존 3D‑인식 방법은 보조적인 3D 정보에 의존하거나, 얕은 특징 융합을 통해 RGB 전용 VLM에 기하학 인코더를 추가하는 방식을 취한다. 본 연구에서는 순수 RGB 입력만으로 공간 추론을 수행하도록 설계된 멀티모달 대형 언어 모델인 SpaceMind를 제안한다. 모델은 공간 이해 전용 인코더인 VGGT와 2D 시각 인코더인 InternViT를 결합한 이중 인코더 구조를 채택한다. 핵심 아이디어는 카메라 표현을 수동적인 메타데이터가 아니라 능동적인 가이드 모달리티로 활용하는 것이다. 구체적으로, SpaceMind는 언어 모델 앞에 경량화된 카메라‑가이드 모달리티 융합 모듈을 도입하여 얕은 융합을 대체한다. 이 모듈은 카메라 조건부 바이어스를 공간 토큰에 적용하고, 기하학적 중요도를 반영하는 쿼리‑독립 가중치를 할당하며, 카메라 임베딩으로 융합 표현을 게이트한다. 실험 결과, SpaceMind는 VSI‑Bench, SQA3D, SPBench에서 새로운 최첨단 성능을 달성했으며, 특히 VSI‑Bench와 SPBench에서 공개·폐쇄형 시스템을 크게 앞섰고, SQA3D에서도 최고 수준을 기록했다. 이는 카메라‑가이드 모달리티 융합이 VLM에 진정한 공간적 기반 지능을 부여하는 효과적인 귀납적 편향임을 입증한다. 향후 연구를 위해 코드와 모델 체크포인트를 공개할 예정이다.

상세 요약

SpaceMind 논문은 현재 대형 비전‑언어 모델(VLM)이 2D 이미지 기반 이해에서는 뛰어난 성능을 보이지만, 3차원 공간 정보를 정확히 추론하는 데는 한계가 있다는 점을 명확히 짚고 있다. 기존 접근법은 두 가지로 나뉜다. 첫 번째는 깊이 맵, 포인트 클라우드 등 보조적인 3D 데이터를 직접 입력으로 활용해 모델이 기하학 정보를 명시적으로 학습하도록 하는 방법이다. 이러한 방식은 데이터 수집 비용이 높고, 실제 어플리케이션에서 3D 센서가 없을 경우 적용이 어려워 실용성이 떨어진다. 두 번째는 RGB 전용 VLM에 별도의 기하학 인코더를 얕게 결합해 공간 정보를 보강하는 방식이다. 하지만 얕은 융합은 서로 다른 모달리티 간의 상호작용을 제한하고, 특히 카메라 파라미터와 같은 메타데이터가 단순히 부가적인 입력으로 취급돼 공간적 의미를 충분히 활용하지 못한다는 문제가 있다.

SpaceMind는 이러한 한계를 극복하기 위해 ‘카메라를 능동적인 가이드 모달리티’로 재정의한다. 카메라 파라미터(예: 초점 거리, 위치, 방향)는 이미지가 촬영된 관점을 결정하는 핵심 정보이며, 이를 토대로 이미지 내 객체들의 실제 거리·크기·관계성을 추론할 수 있다. 논문은 이를 구현하기 위해 두 개의 시각 인코더를 병렬로 사용한다. VGGT는 공간 구조를 파악하도록 설계된 전용 인코더로, 이미지 피처를 3D‑친화적인 토큰 형태로 변환한다. InternViT는 기존의 강력한 2D 비전 트랜스포머로, 풍부한 텍스처·색상 정보를 제공한다. 두 인코더의 출력을 단순히 concatenate하거나 add하는 대신, ‘Camera‑Guided Modality Fusion’(CGMF) 모듈을 도입한다. CGMF는 카메라 임베딩을 기준으로 공간 토큰에 조건부 바이어스를 가하고, 각 토큰에 쿼리‑독립적인 가중치를 부여해 기하학적 중요도를 반영한다. 이후 카메라 임베딩이 게이트 역할을 수행해 최종 융합 표현을 조절한다. 이 과정은 카메라 정보를 토대로 어떤 시각 특징이 공간 추론에 더 중요한지를 동적으로 판단하게 하며, 기존 얕은 융합보다 깊은 상호작용을 가능하게 한다.

실험에서는 VSI‑Bench(다양한 시점·거리 추정 과제), SQA3D(3D 질문 응답), SPBench(공간 관계 평가) 등 세 가지 벤치마크에서 기존 최첨단 모델들을 크게 앞섰다. 특히 VSI‑Bench와 SPBench에서 공개된 오픈소스 모델뿐 아니라, 상용 클로즈드 모델까지 능가한 점은 카메라‑가이드 융합이 실제 적용 가능성을 크게 높인다는 강력한 증거다. 또한, 모델이 순수 RGB만을 입력으로 받음에도 불구하고 3D 정보를 효과적으로 추론한다는 점은 데이터 수집 비용을 크게 절감할 수 있음을 시사한다.

이 논문의 주요 기여는 다음과 같다. 첫째, 카메라 메타데이터를 수동적인 부가 정보가 아니라, 공간 인지를 위한 핵심 가이드 모달리티로 재구성한 점. 둘째, 경량화된 CGMF 모듈을 통해 카메라와 시각 토큰 간의 동적, 조건부 상호작용을 구현함으로써 얕은 융합의 한계를 극복했다. 셋째, 대규모 VLM에 적용 가능한 형태로 설계돼, 기존 모델에 비교적 손쉽게 통합 가능하다. 넷째, 광범위한 벤치마크에서 입증된 실질적인 성능 향상은 향후 로봇 비전, 증강 현실, 자율 주행 등 3D 공간 이해가 필수적인 분야에 큰 파급 효과를 기대하게 만든다. 향후 연구에서는 카메라 외에도 라이다·IMU와 같은 다른 센서 메타데이터를 동일한 가이드 메커니즘에 통합하거나, 멀티모달 프롬프트 엔지니어링과 결합해 더욱 복합적인 공간·시간 추론 능력을 탐색할 여지가 있다.

초록

상세 요약

📜 논문 원문 (영문)