장면 그래프 기반 열린 집합 의미 매핑
초록
**
본 논문은 3차원 의미 장면 그래프(3DSSG)를 매핑 파이프라인의 핵심 백엔드로 삼아, 실시간으로 그래프를 증분 업데이트함으로써 대규모 환경에서도 위상적 일관성과 계산 효율성을 확보한다. SAM 기반 세그멘테이션, DINOv2·CLIP 특징 추출, 그리고 두 단계의 데이터 연관 과정을 결합해 열린 어휘 질의와 실시간 관계 예측을 지원한다.
**
상세 분석
**
이 연구는 기존의 “센서 → 기하학 → 의미 그래프” 순차적 파이프라인을 뒤집어, 3DSSG를 매핑 과정 전체의 단일 진실 원천(single source of truth)으로 설정한다는 점에서 혁신적이다. 먼저, 외부 SLAM 시스템으로부터 얻은 고정밀 포즈를 전제로 하여, 매 프레임마다 SAM(FastSAM)으로 얻은 마스크를 깊이 정보와 결합해 3D 세그먼트를 생성한다. 여기서 중요한 설계 선택은 마스크를 바로 전역 그래프에 삽입하기 전에 로컬 3DSSG를 구성하고, 이 로컬 그래프를 통해 추가적인 GNN 기반 관계 예측이나 위상 정제를 수행한다는 점이다.
특징 추출 단계에서는 DINOv2의 중간 레이어 패치 특징을 활용해 마스크별 특징 벡터를 효율적으로 만든다. 이는 객체 단위로 별도 인코딩을 수행하는 비용을 크게 절감하면서도, 짧은 시간 내에 충분한 시각적 유사성을 제공한다. CLIP 특징은 MaskCLIP 방식을 차용해 패치 수준에서 추출하고, 전체 프레임의 글로벌 임베딩과 코사인 유사도로 가중합하는 게이트 메커니즘을 도입해 지역 텍스처 편향을 보정한다. 이러한 이중 특징 체계는 열린 어휘(Open‑Vocabulary) 질의 시, 언어‑시각 임베딩을 그래프 노드에 직접 매핑할 수 있게 해준다.
데이터 연관은 두 단계로 이루어진다. 1단계는 3D 바운딩 박스 IoU와 DINOv2 코사인 유사도를 기반으로 한 보수적인 그리디 매칭으로, 명확히 일치하는 세그먼트만을 즉시 병합한다. 2단계는 현재 스텝에서 변형·신규 생성된 노드들만을 대상으로, voxel‑grid 겹침과 특징 안정성을 평가해 과도한 분할(over‑segmentation)이나 잡음 노드를 자동으로 정제한다. 이 과정은 기존 연구에서 흔히 사용되는 주기적 오프라인 정제와 달리, 온라인 환경에서도 실시간으로 그래프 일관성을 유지한다는 장점을 가진다.
시스템은 또한 “동적 열린 어휘 질의”와 “실시간 관계 예측”을 시연한다. 전자는 CLIP 특징을 이용해 사용자가 자연어로 객체를 조회할 수 있게 하고, 후자는 학습된 3DSSG 예측 네트워크를 통해 프레임마다 새로운 관계(edge)를 추가·수정한다. 마지막으로, TIA Go 모바일 로봇에 실제 배치해 대규모 실내·실외 환경에서 수십 분 동안 연속 매핑을 수행했으며, 그래프 크기와 연산량이 선형적으로 증가함에도 GPU 기반 파이프라인이 30 fps 수준의 처리 속도를 유지함을 보였다.
전체적으로 이 논문은 (1) 3DSSG를 매핑의 중심 데이터 구조로 전환, (2) 증분 그래프 업데이트와 활성 정제를 결합한 효율적인 온라인 파이프라인, (3) SAM·DINOv2·CLIP을 활용한 다중 모달 특징 통합, (4) 열린 어휘와 관계 예측을 지원하는 확장성을 제시한다. 이러한 설계는 로봇이 인간 수준의 의미 이해와 추론을 수행할 수 있는 기반을 제공하며, 향후 지식 그래프·온톨로지·LLM과의 심층 통합을 위한 견고한 토대를 마련한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기