시각 기반 4차원 공간‑시간 지능을 위한 MLLM‑4D 프레임워크
초록
MLLM‑4D는 스테레오 비디오를 재활용해 4D(3D + 시간) 메타데이터를 자동 생성하고, 이를 기반으로 대규모 SFT·RFT 데이터셋(MLLM4D‑2M, MLLM4D‑R1‑30k)과 평가 벤치마크(MLLM4D‑Bench)를 구축한다. 기존 MLLM 구조를 그대로 유지하면서, 단계적 사후 학습(SFT → GRPO)과 ST‑CoT 프롬프트·ST‑Reward를 도입해 순수 2D RGB 입력만으로도 뛰어난 공간‑시간 이해·추론 능력을 달성한다.
상세 분석
본 논문은 인간이 가지고 있는 “시각 기반 4D 지능”을 인공지능에 구현하고자 하는 근본적인 목표를 제시한다. 이를 위해 저자들은 두 가지 핵심 병목을 정확히 짚어낸다. 첫 번째는 대규모 고품질 4D 교육 데이터의 부재이며, 두 번째는 4D 인식을 위한 별도 아키텍처(예: 3D 포인트 클라우드 네트워크) 없이 기존 멀티모달 LLM에 4D 추론 능력을 부여하는 방법론이 부족하다는 점이다.
데이터 측면에서 저자들은 기존 스테레오 비디오 데이터셋을 활용해 자동화 파이프라인을 구축한다. 파이프라인은 (1) 좌·우 영상으로부터 정밀한 카메라 포즈와 메트릭 스테레오 깊이(Doersch et al., 2024)를 추출하고, (2) GroundedSAM2와 PixelRefer를 이용해 객체‑레벨 2D 마스크와 세밀한 텍스트 설명을 얻으며, (3) 객체‑레벨 3D 포인트 클라우드를 추출해 4D 메타데이터(카메라 포즈, 객체 위치, 의미적 라벨)를 구성한다. 이후 물리 기반 관계 해석기를 적용해 “객체 절대 거리”, “카메라 이동량”, “객체‑카메라 상대 방향” 등 6가지 하위 태스크에 대한 정량적 정답을 계산하고, 템플릿 기반 QA 쌍과 ST‑CoT(Spatiotemporal Chain‑of‑Thought) 형태의 사고 과정 텍스트를 자동 생성한다. 결과적으로 2 M개의 고품질 QA 쌍을 포함하는 MLLM4D‑2M와, 강화학습용 30 k 샘플을 담은 MLLM4D‑R1‑30k, 그리고 6 k 질문·답변을 포함하는 MLLM4D‑Bench을 제공한다.
학습 전략은 두 단계로 나뉜다. 첫 단계인 Supervised Fine‑Tuning(SFT)에서는 위에서 만든 2 M QA 쌍을 이용해 모델이 기본적인 4D 개념(예: “프레임 3의 객체 중심과 카메라 중심”)을 인식하도록 학습한다. 두 번째 단계인 Group Relative Policy Optimization(GRPO) 기반 강화학습에서는 ST‑CoT 프롬프트를 활용해 모델이 단계별 사고 과정을 명시하도록 유도하고, ST‑Reward(물리적 일관성을 평가하는 보상 함수)를 도입해 실제 4D 운동 법칙에 위배되는 답변을 벌점화한다. 흥미롭게도 모델 구조 자체는 변형하지 않으며, 기존의 Qwen‑VL, Gemini‑2.5 등 공개된 MLLM을 그대로 사용한다.
실험 결과는 두드러진데, MLLM‑4D는 기존 3D‑전문 MLLM(예: VG‑LLM, Spatial‑MLLM)보다 동적 씬에서의 절대·상대 거리 추정, 카메라 궤적 예측, 객체‑카메라 상호작용 질문 등에 대해 평균 8‑12%p 높은 정확도를 기록한다. 특히 “객체‑카메라 동역학” 서브태스크에서 인간 수준에 근접한 성능을 보이며, 기존 정적 3D QA 벤치마크에서도 경쟁력을 유지한다.
본 연구의 주요 기여는 (1) 스테레오 비디오를 활용한 비용 효율적인 4D 데이터 자동 생성 파이프라인, (2) 기존 MLLM에 최소한의 추가 비용으로 4D 추론 능력을 부여하는 사후 학습 프레임워크, (3) 물리‑기반 보상과 사고 과정 프롬프트를 결합한 새로운 RL‑CoT 방법론, (4) 포괄적인 평가 벤치마크이다. 향후 연구는 단일 카메라(모노) 영상에서도 정확한 4D 메타데이터를 추출하는 방법, 그리고 실제 로봇·AR/VR 시스템에의 실시간 적용 가능성을 탐색하는 방향으로 진행될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기