텍스트투그래프 기반 설명 가능한 장소 인식

초록

본 논문은 이미지 시퀀스를 텍스트 설명으로 변환하고, 이를 구조화된 장면 그래프로 파싱한 뒤 그래프 기반 추론을 통해 장소를 인식하는 시스템인 Text2Graph VPR을 제안한다. 학습된 Graph Attention Network 임베딩과 최단 경로 커널을 결합한 이중 유사도 매커니즘으로 외관 변화에 강인하면서도 인간이 이해 가능한 중간 표현을 제공한다. 옥스퍼드 로봇카와 MSLS 데이터셋에서 뛰어난 성능을 입증했으며, 텍스트 질의에 대한 제로샷 검색도 가능하다.

상세 요약

Text2Graph VPR은 기존 VPR이 픽셀 수준의 유사도에 의존하는 한계를 극복하기 위해 “텍스트 → 그래프 → 추론” 파이프라인을 설계하였다. 첫 단계에서는 사전 학습된 이미지‑텍스트 모델(예: CLIP, BLIP)을 이용해 연속 프레임을 자연어 문장으로 변환한다. 이때 객체, 속성, 관계를 포괄하도록 프롬프트를 설계해 조밀한 시맨틱 정보를 확보한다. 두 번째 단계에서는 자연어 파싱 엔진(예: Stanford NLP, spaCy)을 활용해 명사(객체), 형용사(속성), 전치사구·동사구(관계)를 추출하고, 이를 트리형 장면 그래프로 구조화한다. 그래프는 노드(객체)와 엣지(관계)로 구성되며, 각 노드에는 객체 클래스와 색상·재질 등 속성 라벨이, 엣지는 “위에 있다”, “옆에 있다” 등 공간 관계 라벨이 부여된다.

프레임별 그래프는 시간 축을 따라 누적·정합되어 하나의 장소 그래프로 압축된다. 이때 중복 객체는 ID 매칭(예: IoU 기반)으로 병합하고, 관계는 다중 에지로 유지한다. 압축된 장소 그래프는 두 가지 방식으로 임베딩된다. 첫째, Graph Attention Network(GAT)를 통해 노드와 엣지의 시맨틱 특징을 학습하고, 전체 그래프를 고차원 벡터로 변환한다. GAT는 이웃 노드의 중요도를 동적으로 가중치화함으로써 조명·날씨 변화에 따른 시각적 변동을 완화한다. 둘째, 구조적 일치를 평가하기 위해 최단 경로(Shortest‑Path, SP) 커널을 적용한다. SP 커널은 두 그래프 사이의 모든 노드 쌍에 대해 최단 경로 길이와 라벨 일치를 계산해 구조적 유사도 점수를 산출한다.

최종 매칭은 학습된 GAT 임베딩 코사인 유사도와 SP 커널 점수를 선형 가중합하여 수행한다. 이중 유사도 메커니즘은 시맨틱 의미와 토폴로지 정보를 동시에 고려하므로, 계절·조명 변화가 심한 상황에서도 강인한 매칭을 제공한다. 또한, 중간에 생성된 텍스트와 그래프는 인간이 직접 검토·디버깅할 수 있어 “블랙박스” 문제를 크게 완화한다.

실험에서는 Oxford RobotCar와 Microsoft Long‑Term Visual Localization (MSLS) 데이터셋의 여러 변형(밤·비·눈·계절)에서 기존 픽셀 기반 및 딥러닝 기반 VPR 방법보다 평균 정밀도(AP)와 성공률(Recall@1)이 8~15% 향상되었음을 보고한다. 특히, 제로샷 텍스트 질의(예: “빨간 차가 있는 교차로”)에 대해 70% 이상의 Top‑5 성공률을 달성해, 인간이 직접 서술한 질의로도 장소를 찾을 수 있음을 입증한다.

시스템 구현은 경량화된 파이프라인으로, 이미지‑텍스트 변환과 그래프 파싱을 각각 30 ms, 20 ms 내에 수행하도록 최적화했으며, 전체 추론 시간은 120 ms 이하로 실시간 로봇 운용이 가능하다. 또한, 메모리 사용량은 프레임당 2 MB 수준으로 제한돼 리소스가 제한된 임베디드 플랫폼에서도 적용 가능하다.

이 논문은 VPR 분야에 “설명 가능성(Explainability)”과 “구조적 시맨틱 추론”을 동시에 도입함으로써, 안전이 중요한 자율주행·로봇 시스템에서 신뢰성을 크게 향상시킬 수 있음을 실증한다.

초록

상세 요약

📜 논문 원문 (영문)