오픈보캡처 몬테카를로 로컬라이제이션
초록
OMCL은 CLIP 기반의 시각‑언어 특징을 3D 옥트리 맵에 저장하고, 파티클 필터를 이용해 RGB 이미지만으로 실시간 자세 추정을 수행한다. 언어 프롬프트를 활용한 전역 초기화와 크로스모달 매핑( RGB‑D 혹은 포인트클라우드) 기능을 제공해 실내·실외 환경 모두에서 기존 방법보다 높은 정확도를 달성한다.
상세 분석
본 논문은 전통적인 몬테카를로 로컬라이제이션(MCL)에 시각‑언어 모델(VLM)인 CLIP을 결합한 새로운 프레임워크 OMCL을 제안한다. 핵심 아이디어는 3차원 공간을 옥트리 구조로 분할하고, 각 옥텟(voxel)에 고차원 시각‑언어 특징 벡터를 저장하는 ‘옥트리 언어 맵(Octree Language Map)’을 구축하는 것이다. 매핑 단계에서는 두 가지 입력 옵션을 제공한다. 옵션 1은 RGB‑D 이미지와 알려진 카메라 자세를 이용해 LSeg 모델로 픽셀‑단위 특징을 추출하고, 깊이 정보를 통해 해당 특징을 옥텟에 투사한다. 동일 옥텟에 여러 특징이 겹칠 경우 코사인 거리 기준 τ보다 차이가 작으면 평균화하고, 차이가 크면 새로운 특징으로 교체한다. 옵션 2는 사전 구축된 포인트클라우드에 OpenScene 모델을 적용해 각 포인트에 직접 시각‑언어 특징을 부여한 뒤, 이를 옥트리 형태로 집계한다. 이렇게 구축된 맵은 센서 종류에 독립적이며, RGB 이미지만으로도 로컬라이제이션이 가능하도록 설계되었다.
로컬라이제이션 단계에서는 파티클 필터가 각 파티클의 자세를 가정하고, 해당 자세에서 카메라 내부 파라미터를 이용해 레이(ray)를 발사한다. 레이와 첫 번째로 교차하는 옥텟의 특징 γ와 이미지에서 추출한 픽셀 특징 φ 사이의 코사인 유사도 L_i를 계산하고, 이를 파티클 가중치 w_ti에 반영한다. 가중치는 w_{t-1,i}·max(L_i,0) 형태로 업데이트되며, 최종 자세는 가중치가 높은 파티클들의 가중 평균으로 추정한다.
특히, 균일 샘플링이 큰 평면(벽, 바닥)에서 과다하게 이루어지는 문제를 해결하기 위해 ‘계층적 레이 샘플링(stratified ray sampling)’을 도입한다. 이미지 내 픽셀을 시각‑언어 특징 기반 클러스터로 그룹화하고, 각 클러스터에서 동일 개수의 샘플을 추출함으로써 작은 객체의 정보 손실을 최소화한다. 클러스터 중심은 맵에 저장된 특징 데이터베이스(Features DB)이며, 이는 사전 정의된 텍스트 프롬프트와 매칭시켜 전역 초기화에도 활용된다. 사용자는 “화장실, 거울, 수건” 등 자연어로 초기 위치 후보를 제시하면, 해당 단어들의 텍스트 임베딩과 가장 유사한 옥텟을 찾아 파티클을 그 주변에 집중시킨다. 이 과정은 비전 전문가가 아닌 일반 사용자도 직관적으로 전역 로컬라이제이션을 수행할 수 있게 만든다.
실험에서는 실내 데이터셋(Matterport3D, Replica)과 실외 데이터셋(SemanticKITTI)에서 기존 시멘틱 로컬라이제이션 및 LiDAR‑to‑카메라 매칭 방법(CMRNext 등)과 비교하였다. OMCL은 특히 크로스모달 매핑 상황에서 지도와 관측 사이의 도메인 격차를 시각‑언어 특징 하나로 추상화함으로써, 센서 종류가 달라도 일관된 매칭을 가능하게 한다. Ablation study에서는 (1) 전체 특징 DB 사용 vs. 프롬프트 기반 필터링, (2) 계층적 샘플링 vs. 무작위 샘플링, (3) 텍스트 초기화 vs. 무작위 초기화의 영향을 분석했으며, 모두 제안된 구성 요소가 정확도와 수렴 속도에 긍정적인 영향을 미침을 확인했다.
요약하면, OMCL은 (1) 시각‑언어 특징을 이용한 지도 표현, (2) 레이 트레이싱 기반 측정 모델, (3) 텍스트 프롬프트 기반 전역 초기화, (4) 계층적 샘플링을 통한 효율적인 파티클 가중치 계산이라는 네 가지 핵심 기술을 결합해, 센서 이질성, 환경 변화, 사용자 친화성 측면에서 기존 MCL 기반 로컬라이제이션을 크게 확장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기