자동 확대로 보는 교차 시점 지리 위치 추정

본 논문은 거리 사진을 위성 이미지와 매칭해 위치를 추정하는 교차 시점 지리 위치 추정(CVGL) 문제를, 대규모 임베딩 검색이 아닌 다중 스케일 위성 지도 위에서 자동으로 확대(zoom‑in)하는 순차적 의사결정 과정으로 재구성한다. 제안된 “Just Zoom In” 모델은 변환기(Transformer) 기반의 autoregressive 구조로, 각 확대 단계마다 후보 패치를 선택해 최종 목표 해상도의 셀을 예측한다. 대비 실험을 위해 다중 …

저자: Yunus Talha Erzurumlu, Jiyong Kwag, Alper Yilmaz

자동 확대로 보는 교차 시점 지리 위치 추정
본 논문은 거리 사진을 이용해 GPS가 없는 환경에서 위치를 추정하는 교차 시점 지리 위치 추정(Cross‑View Geo‑Localization, CVGL) 문제를 새로운 관점에서 접근한다. 기존 연구들은 거리 사진과 위성 이미지 사이의 극단적인 시점 차이를 극복하기 위해, 두 도메인을 동일한 임베딩 공간에 매핑하고 contrastive loss를 이용해 “같은 위치”와 “다른 위치”를 구분하는 이미지‑검색 방식을 주로 사용해 왔다. 이러한 방식은 대규모 배치와 hard negative mining에 크게 의존해 학습 비용이 높고, 전체 위성 타일을 데이터베이스에 저장·검색해야 하는 메모리·연산 부담이 크며, 고정된 크기의 타일이 거리 사진에 보이는 중요한 랜드마크를 포함하지 못하는 ‘coverage mismatch’ 문제에 취약했다. 이에 저자들은 CVGL을 “자동 확대(autoregressive zoom‑in)” 문제로 재정의한다. 도시 규모의 위성 지도는 여러 해상도 레벨(코스→파인)로 구성되며, 모델은 초기에는 전체 지역을 포괄하는 coarse‑level 위성 타일을 보고, 거리 사진 I_g와 현재까지 선택된 확대 액션을 입력으로 다음 레벨에서 어떤 서브 타일(K² 후보 중 하나)을 선택할지 예측한다. 이 과정을 N번 반복해 최종적으로 목표 해상도(예: 50 m 셀)까지 확대하고, 최종 셀의 중심 좌표를 위치 추정값으로 사용한다. 모델 아키텍처는 크게 세 부분으로 나뉜다. 1) 공유 비전 인코더: 거리 사진과 각 레벨의 위성 타일을 각각 하나의 전역 토큰(e_g, e_t)으로 압축한다. 2) Causal Transformer 디코더: 이전 단계에서 선택된 액션 토큰 a_{

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기