언어 이미지 임베딩을 활용한 로봇 탐색

언어 이미지 임베딩을 활용한 로봇 탐색
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LIEREx는 CLIP과 같은 비전‑언어 기반 모델(VLFM)을 3차원 의미 장면 그래프(3DSSG)와 결합해, 고정된 라벨이 아닌 임베딩으로 객체를 표현한다. 이를 통해 로봇은 자연어 쿼리로 목표 객체를 검색하고, 학습된 뷰 품질 추정 모듈을 이용해 효율적인 관찰 위치를 선택한다. 시스템은 시뮬레이터 기반 데이터와 실제 TIAGo 로봇 실험을 통해 개념적·기하학적 복합 탐색을 검증한다.

상세 분석

LIEREx는 기존의 기하학 중심 3D 매핑과 고정된 객체 라벨에 의존하는 의미 매핑의 한계를 극복하기 위해 두 가지 핵심 기술을 도입한다. 첫 번째는 Vision‑Language Foundation Model(VLFM)인 CLIP을 활용해 이미지‑텍스트 쌍으로부터 얻은 고차원 임베딩을 3DSSG의 노드에 부착하는 것이다. 기존의 클래스‑기반 세그멘테이션과 달리, 클래스‑불가지론적 객체 후보를 먼저 클래스‑불가지론적 세그멘테이션 모델(예: Mask2Former)로 추출하고, 해당 마스크 영역에 대해 CLIP 피처를 계산한다. 이렇게 얻은 피처는 객체가 관찰된 여러 뷰 중 가시성이 높은 뷰에 매핑되어, 그래프 내에서 위치와 형태 정보를 보강한다.

두 번째 핵심은 “View Quality Estimation”(VQE) 모듈이다. 전통적인 프론티어 기반 탐색은 후보 뷰를 평가하기 위해 TSDF 레이캐스팅 등 고비용 연산을 수행한다. LIEREx는 대신, 3DSSG와 CLIP 임베딩을 입력으로 하는 신경망을 학습시켜, 특정 자연어 쿼리에 대한 관찰 뷰의 품질 점수를 예측한다. 학습은 Habitat 시뮬레이터와 HM3D 데이터셋을 이용해 자동으로 생성된 쿼리‑맵‑뷰 삼중항을 활용한다. 렌더링된 뷰의 CLIP 피처와 쿼리 피처 간 코사인 유사도를 손실로 사용함으로써, 네트워크는 “시각적으로 구분 가능한” 뷰를 높은 점수로 학습한다.

시스템 파이프라인은 크게 네 단계로 구성된다. (1) RGB‑D 스트림에서 클래스‑불가지론적 세그멘테이션을 수행하고, 각 마스크에 CLIP 피처를 부착한다. (2) 이 피처를 3DSSG 노드에 통합해, 객체와 공간 관계를 계층적으로 표현한다. (3) 사용자가 자연어 쿼리를 입력하면, 쿼리 텍스트를 CLIP으로 인코딩하고, 그래프 노드와 코사인 유사도로 매칭해 후보 객체를 반환한다. (4) 후보 객체 주변에서 VQE가 제안한 관찰 포즈를 샘플링하고, 품질 점수가 높은 포즈를 탐색 플래너에 전달한다. 플래너는 기존 프론티어 탐색과 VQE 기반 포즈를 혼합해, 알려진 목표와 미지 영역을 동시에 탐색한다.

실험에서는 시뮬레이션 환경과 실제 TIAGo 2 로봇을 사용했다. 시뮬레이션에서는 HM3D의 대규모 실내 씬을 이용해 수천 개의 쿼리‑맵 쌍을 생성, VQE의 정확도가 기존 기하학 기반 히트율보다 20% 이상 향상됨을 보였다. 실제 로봇 실험에서는 사전 매핑된 건물 내에서 “주방”, “의자” 등 추상적인 쿼리를 수행했으며, 로봇은 VQE가 제안한 관찰 포즈를 따라 이동해 목표 객체를 성공적으로 탐지하고, 탐색 시간과 이동 거리를 모두 감소시켰다.

기술적 한계로는 (1) 현재 CLIP은 이미지 전체에 대한 피처만 제공하므로, 매우 작은 객체나 복잡한 겹침 상황에서 세밀한 구분이 어려울 수 있다. (2) VQE는 학습 데이터에 크게 의존하므로, 도메인 간 차이가 큰 환경에서는 성능 저하가 예상된다. (3) 3DSSG에 임베딩을 지속적으로 업데이트하는 비용이 실시간 SLAM 파이프라인에 추가적인 부하를 준다. 향후 연구에서는 지역화된 VLFM(예: RegionCLIP)과 라이트웨이트 그래프 업데이트 전략을 결합해, 실시간성 및 확장성을 강화할 필요가 있다.

전반적으로 LIEREx는 언어‑이미지 임베딩을 3D 의미 그래프와 결합함으로써, 로봇이 고정 라벨에 얽매이지 않고 자연어 기반 목표 탐색을 수행하도록 만든 혁신적인 프레임워크이다. 이는 인간‑로봇 상호작용을 자연스럽게 만들고, 복잡한 실내 환경에서의 자율 탐색 능력을 크게 향상시킬 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기