다중 시점 이미지와 언어 설명을 통한 카메라 포즈 예측 및 공간 추론 혁신

다중 시점 이미지와 언어 설명을 통한 카메라 포즈 예측 및 공간 추론 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CAMCUE는 다중 이미지와 각 이미지의 카메라 포즈를 활용해 자연어로 표현된 목표 시점을 정확히 추정하고, 예측된 포즈에 기반해 가상의 뷰를 생성해 질문에 답한다. 27,668개의 학습·508개의 테스트 샘플을 포함한 CAMCUE‑DATA에서 기존 방법 대비 전체 정확도가 9.06% 상승했으며, 회전 20° 이내 90%·이동 0.5 이내 정확도를 달성한다. 포즈 예측으로 테스트‑타임 검색을 없애 추론 시간을 256.6s에서 1.45s로 대폭 단축한다.

상세 분석

CAMCUE는 “시점 전환(perspective‑shift) 추론”이라는 문제를 정의한다. 여기서는 여러 관점에서 촬영된 이미지와 그에 대응하는 카메라 외부·내부 파라미터가 주어지고, 사용자는 자연어로 목표 시점을 설명한다. 기존 멀티모달 대형 언어 모델(MLLM)은 이러한 언어‑시점 매핑을 명시적으로 수행하지 못해, 관점이 바뀐 질문에 대해 일관된 3D 이해를 제공하지 못한다. CAMCUE는 이를 해결하기 위해 세 가지 핵심 설계를 도입한다.

첫째, 플러커(Plücker) 인코더를 사용해 각 이미지의 카메라 외부·내부 파라미터를 픽셀‑정렬 레이 맵으로 변환하고, 이를 비전 백본과 동일한 패치 토큰화 과정을 거쳐 시점 토큰 Zᵢ로 만든다. 이렇게 하면 시점 정보가 이미지 토큰 Xᵢ와 정확히 같은 공간 레이아웃을 공유하므로, 이후 토큰 수준에서 간단한 MLP 융합( X̃ᵢ = Xᵢ + W


댓글 및 학술 토론

Loading comments...

의견 남기기