비전 언어 모델과 가우시안 프로세스로 구현하는 군중 회피 경로 계획 시스템
초록
본 논문은 Vision‑Language Model(VLM)과 Gaussian Process Regression(GPR)을 결합해 실시간 군중 밀도 지도(Abstraction Map)를 생성하고, 이를 기존의 기하학적 지도와 융합해 Dijkstra 기반 경로 계획을 수행함으로써 동적 환경에서 로봇의 안전한 이동을 가능하게 하는 프레임워크를 제안한다.
상세 분석
이 연구는 로봇이 복잡한 실내·실외 환경에서 “군중”이라는 추상적 개념을 인식하고, 이를 정량적인 비용 지도로 변환하는 방법론을 제시한다. 기존의 로봇 내비게이션은 주로 정적 장애물과 간단한 동적 장애물(예: 레이더·라이다 기반)만을 고려했으며, 군중과 같은 고차원 사회적 요인을 비용 함수에 반영하기 어려웠다. 논문은 VLM을 활용해 카메라 이미지와 텍스트 프롬프트를 동시에 입력함으로써 “crowd” 혹은 “free”라는 이진 라벨을 얻는다. 이 라벨은 로봇이 현재 위치에서 일정 간격(3 m)마다 측정되며, 공간적으로 희소한 라벨 데이터를 GPR을 통해 연속적인 확률 밀도 함수로 보간한다. GPR의 평균값은 군중 존재 확률을, 분산값은 예측 신뢰도를 제공해 로봇이 불확실성이 높은 구역을 회피하거나 추가 센싱을 수행하도록 의사결정에 활용할 수 있다.
핵심 기술적 기여는 다음과 같다. 첫째, VLM을 로봇 실시간 인식 파이프라인에 삽입해 추상 개념을 직접 언어 형태로 추출함으로써 기존 CNN 기반 군중 카운팅이 요구하는 복잡한 후처리와 라벨링 비용을 대폭 감소시켰다. 둘째, GPR을 이용한 비용 지도 보간은 공간적 연속성을 보장하면서도 불확실성 정보를 제공해 다중 레이어 비용 통합 시 가중치 튜닝을 정량적으로 지원한다. 셋째, 기하학적 지도와 추상 지도(Abstraction Map)를 동일 그리드 형태로 통합함으로써 Dijkstra 알고리즘과 같은 전통적인 최단경로 탐색기법을 그대로 사용할 수 있게 하여 구현 복잡도를 최소화하였다.
실험은 일본 우쓰노미야 대학 캠퍼스에서 수행되었으며, 로봇은 3D‑LiDAR와 RGB 카메라를 장착한 플랫폼을 사용했다. 두 차례의 군중 생성 실험에서 VLM(gpt‑4o‑mini) 기반 라벨링은 거리와 시점에 따라 “crowd”와 “free”를 정확히 구분했으며, GPR 보간 결과는 군중 밀도가 높은 구역을 비용 맵 상에 부드럽게 표시하였다. 경로 계획 단계에서 군중 비용과 정적 장애물 비용을 1:1 비율로 가중합했을 때 로봇은 군중을 효과적으로 회피하며 목적지에 도달했으며, 가중치를 1:9로 조정하면 군중을 무시하고 비효율적인 경로를 선택하는 것을 확인했다. 이는 비용 가중치 조정이 로봇 행동에 미치는 영향을 명확히 보여준다.
한계점으로는 VLM이 전방 카메라 시야에 의존해 군중을 탐지하므로, 로봇이 군중 뒤쪽을 지나갈 때 인식이 어려워 예측 오차가 발생한다는 점이다. 또한 현재 실험에서는 군중을 정적 환경으로 가정했으며, 실시간 업데이트 주기를 높여 동적 군중 흐름을 추적하는 연구가 필요하다. 향후 연구에서는 360도 카메라, 라이다 기반 사람 검출, 혹은 Wi‑Fi CSI와 같은 다중 센서를 융합해 VLM의 인식 범위를 확장하고, 강화학습 기반 정책과 결합해 군중 흐름에 따라 적응적으로 경로를 재계획하는 방안을 모색할 수 있다.
전반적으로 이 논문은 VLM과 확률적 보간 기법을 로봇 내비게이션에 적용한 최초 사례 중 하나로, 추상적 사회적 정보를 정량화하고 비용 지도에 통합하는 방법론을 제시함으로써 인간‑로봇 공동 작업 환경에서 안전성과 효율성을 동시에 향상시킬 수 있는 실용적 길을 열었다.
댓글 및 학술 토론
Loading comments...
의견 남기기