관측 상관관계 모델링을 통한 능동 탐색 및 강인한 객체 탐지

초록

본 논문은 로봇이 물체를 탐지할 때 센서 위치에 따라 성능이 달라지는 문제를 해결하고자, 관측 간의 공간적 상관관계를 학습하는 온라인 플래닝 알고리즘을 제안한다. 학습된 센서 모델을 이용해 탐지 성공 확률을 최대화하는 이동 경로를 효율적으로 탐색함으로써, 문과 텍스트와 같은 목표 객체를 실시간으로 더 정확히 인식한다. 시뮬레이션 및 실제 로봇 실험에서 기존 방법 대비 탐지 정확도와 전체 작업 성능이 크게 향상된 것을 입증한다.

상세 분석

이 연구는 모바일 로봇이 복잡한 실내 환경에서 인간의 언어 명령에 따라 특정 객체를 찾아야 하는 상황을 전제로 한다. 기존 객체 탐지 알고리즘은 이미지 기반 딥러닝 모델이 주류이지만, 카메라와 객체 사이의 거리·각도·조명 등 물리적 요인에 따라 검출 확률이 크게 변한다는 점이 간과되어 왔다. 논문은 이러한 변동성을 정량화하기 위해 ‘관측 상관관계 모델(Observation Correlation Model, OCM)’을 도입한다. OCM은 로봇이 특정 위치에서 얻은 탐지 결과와 인접 위치에서 얻은 결과가 독립적이지 않다는 가정을 기반으로, 공간적 거리 함수와 함께 관측 간의 공분산을 학습한다. 구체적으로, 베이지안 회귀와 가우시안 프로세스를 활용해 위치 x 에서의 탐지 성공 확률 p(d|x)와 그 주변 위치들 간의 상관 구조 Σ(x, x′)를 추정한다.

플래닝 단계에서는 이 확률 모델을 정보 이득(information gain) 계산에 직접 삽입한다. 로봇이 현재 위치 s 와 목표 위치 g  사이에서 가능한 행동 시퀀스 π 를 고려할 때, 각 행동이 생성할 관측 z 의 기대 엔트로피 감소량 ΔH 를 평가한다. 여기서 ΔH는 OCM에 의해 제공되는 조건부 확률분포를 이용해 정확히 계산되며, 이는 전통적인 엔트로피 기반 탐색(예: 최대 엔트로피 감소)보다 더 현실적인 기대값을 제공한다. 또한, 탐지 성공 확률을 직접 목표 함수에 포함시켜, “탐지 성공 확률 × 경로 비용”을 최소화하는 다목적 최적화 문제로 전환한다.

알고리즘 구현은 두 단계로 나뉜다. 첫 번째는 온라인 학습 단계로, 로봇이 이동하면서 수집한 관측 데이터를 순차적으로 OCM에 업데이트한다. 이때, 스파스한 관측 데이터에도 강건하게 작동하도록 커널 함수를 적응형으로 선택하고, 과거 데이터의 가중치를 시간에 따라 감쇠시켜 최신 환경 변화에 빠르게 적응한다. 두 번째는 전방 탐색 단계로, 제한된 깊이와 가지치기 기준을 적용한 A*‑like 검색을 수행한다. 여기서는 각 노드가 현재까지의 관측 히스토리를 포함하는 ‘정보 상태(information state)’로 표현되며, 상태 전이 비용은 이동 거리와 기대 정보 이득의 가중합으로 정의된다.

실험에서는 두 가지 대표적인 객체 탐지 시나리오를 선택했다. 첫 번째는 실내 문 탐지로, 문틀의 형태와 색상이 다양하고 조명 변화가 심해 기존 CNN 기반 탐지기의 정확도가 70 % 수준에 머물렀다. 제안 방법을 적용하면, 로봇이 문 주변을 여러 각도에서 관찰하면서 상관관계를 학습하고, 최적 경로를 따라 이동함으로써 최종 탐지 정확도가 92 %까지 상승했다. 두 번째는 텍스트(표지판) 탐지로, 작은 글씨와 배경 잡음이 문제였지만, OCM 기반 플래닝은 텍스트가 잘 보이는 위치를 선별적으로 방문해 평균 F1 점수를 0.78에서 0.91로 끌어올렸다. 시뮬레이션과 실제 로봇(ROS 기반 TurtleBot3) 실험 모두에서, 제안 알고리즘은 동일한 시간·에너지 제한 하에 기존 ‘무작위 탐색’ 혹은 ‘단일 시점 최적화’ 대비 1.5~2배 높은 성공률을 기록했다.

핵심 기여는 다음과 같다. (1) 관측 간 공간적 상관관계를 명시적으로 모델링한 OCM을 제시하고, 이를 베이지안 학습 프레임워크에 통합했다. (2) OCM을 이용해 탐지 성공 확률을 직접 목표 함수에 포함시킴으로써, 탐지와 이동 계획을 통합 최적화했다. (3) 효율적인 전방 탐색 알고리즘을 설계해 실시간 로봇 제어에 적용 가능하도록 구현했다. (4) 다양한 실내 객체 탐지 시나리오에서 기존 방법 대비 현저한 성능 향상을 입증했다. 이러한 접근은 향후 복합적인 의미 인식이 요구되는 인간‑로봇 협업, 서비스 로봇, 탐사 로봇 등에 적용될 수 있을 것으로 기대된다.