다중시점 공간 추론을 위한 ViewFusion: 두 단계 사고 체인
초록
ViewFusion은 다중 이미지 입력에서 교차 시점 정렬을 명시적으로 수행하도록 설계된 두 단계 프레임워크이다. 첫 단계에서는 <spatial_thinking> 태그 안에 시점 관계와 변환을 추론해 중간 작업공간을 만든다. 두 번째 단계에서는 질문에 따라
상세 분석
본 논문은 현재 멀티모달 대형 언어 모델(MLLM)들이 다중 시점 입력을 받을 때, 각 이미지를 독립적으로 처리하고 질문에 바로 답하는 “late‑fusion” 방식에 빠지는 문제점을 정확히 짚어낸다. 이러한 접근은 시점 변환, 객체 재식별, 가려짐(occlusion) 등 교차 시점 관계를 무시하게 만들며, 특히 질문이 시점 변환이나 가려짐에 의존할 경우 모델이 쉽게 오류를 범한다. 저자들은 이를 해결하기 위해 두 단계 사고 체인(think‑twice) 구조를 제안한다.
첫 번째 단계, 즉 <spatial_thinking> 단계에서는 모델이 입력된 여러 이미지를 동시에 관찰하고, “카메라가 어떻게 이동했는가”, “어떤 객체가 동일한지”, “시점에 따라 어떤 부분이 가려졌는가” 등을 명시적으로 추론한다. 이 과정에서 모델은 각 이미지의 좌표계 변환 행렬을 암묵적으로 구성하거나, 공유되는 랜드마크(예: 창문, 벽면 장식)를 기준으로 상대 위치를 정렬한다. 이렇게 형성된 중간 작업공간은 단순 텍스트 요약이 아니라, 시점 간 변환 정보를 포함한 구조화된 사고 기록이다.
두 번째 단계에서는 질문에 초점을 맞추어
학습 측면에서는 두 단계 구조를 자연스럽게 습득하도록 두 단계 파이프라인을 설계했다. 먼저 18K 규모의 합성 데이터셋을 이용해 <spatial_thinking>‑
실험에서는 MMSI‑Bench이라는 다중 시점 공간 추론 벤치마크를 사용했으며, ViewFusion은 Qwen3‑VL‑4B‑Instruct 대비 전체 정확도 5.3%p 상승을 기록했다. 특히 “genuine cross‑view alignment”이 요구되는 샘플에서 9~12%p 이상의 큰 개선을 보였다. 추가 실험으로 Qwen3‑VL‑4B‑Thinking(긴 사유 단계만 강조)과 비교했을 때, 단순 사유 연장보다 명시적 두 단계 구조가 더 큰 이득을 제공함을 확인했다. Ablation study에서는 (1) SFT만 사용했을 때와 (2) RL만 사용했을 때의 성능 차이, (3) <spatial_thinking> 태그를 제거했을 때의 성능 저하 등을 통해 각 구성 요소의 기여도를 정량화했다.
결과적으로 ViewFusion은 “관찰‑정렬‑추론”이라는 명확한 파이프라인을 도입함으로써, 기존 MLLM이 다중 시점 정보를 제대로 활용하지 못하던 한계를 극복하고, 시점 변환·가려짐·객체 재식별 등 복합적인 공간 관계를 요구하는 질문에 대해 보다 견고하고 해석 가능한 답변을 생성한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기