다중뷰 일관성 측정 메트릭 MEt3R

다중뷰 일관성 측정 메트릭 MEt3R
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MEt3R는 이미지 쌍 사이의 3D 일관성을 카메라 자세 없이 평가하는 새로운 메트릭이다. DUSt3R을 이용해 밀집 3D 포인트 클라우드를 추정하고, DINO + FeatUp으로 고해상도 특징을 얻어 양쪽 뷰에 투영한 뒤 코사인 유사도로 일관성을 정량화한다. 기존 TSED·SED·FID 등과 달리 뷰‑종속 조명 변화를 무시하고, 정량적·시각적 차이를 동시에 포착한다. 논문은 또한 MV‑LDM이라는 공개 다중뷰 라티스 디퓨전 모델을 제시하고, 다양한 최신 생성 모델들을 MEt3R로 벤치마크한다.

상세 분석

MEt3R는 두 단계로 구성된다. 첫 번째 단계에서는 최신 무포즈 스테레오 복원 모델인 DUSt3R을 활용해 입력 이미지 쌍 (I₁, I₂) 으로부터 각각 카메라 I₁ 좌표계에 정렬된 밀집 3D 포인트 맵 X₁, X₂를 얻는다. DUSt3R은 ViT 기반 백본과 교차‑뷰 트랜스포머 디코더를 사용해 픽셀‑정렬 3D 좌표를 직접 회귀함으로, 별도의 카메라 파라미터가 필요 없다는 점이 큰 장점이다. 두 번째 단계에서는 DINO ViT로부터 추출한 저해상도 의미론적 특징 F₁, F₂를 FeatUp을 통해 고해상도로 업샘플링한다. 이렇게 얻은 특징을 X₁, X₂에 의해 정의된 3D 공간에 역투영하고, PyTorch3D 포인트 레스터라이저로 다시 I₁ 이미지 평면에 렌더링한다. 결과적으로 두 뷰에 대한 특징 맵 ĤF₁, ĤF₂가 동일한 3D 좌표계에 정렬된다. 일관성 점수 S(I₁, I₂)는 겹치는 픽셀 영역 M 내에서 코사인 유사도를 가중 평균한 값이며, 최종 메트릭 MEt3R은 1 – ½


댓글 및 학술 토론

Loading comments...

의견 남기기