모바일 로봇 객체 탐색을 위한 딥 RL과 베이지안 추론 통합

모바일 로봇 객체 탐색을 위한 딥 RL과 베이지안 추론 통합
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 실내 환경에서 물체를 찾는 모바일 로봇을 위해, 베이지안 방식으로 목표 위치에 대한 확률적 신념 지도(belief map)를 유지하고, 이를 입력으로 하는 딥 강화학습(DRL) 정책으로 행동을 선택하는 하이브리드 프레임워크를 제안한다. 캘리브레이션된 객체 검출 결과를 이용해 온라인으로 신념을 업데이트하고, 클러스터링된 탐색 공간 위에서 DQN 기반 정책이 목표 지점을 선택한다. Habitat 3.0 시뮬레이터에서 두 개의 실내 맵을 사용해 평가한 결과, 기존 확률 기반 휴리스틱과 순수 DRL 대비 성공률이 상승하고 탐색 비용이 감소함을 보였다.

상세 분석

이 연구는 로봇 객체 탐색(ObjectNav) 문제를 두 가지 전통적 접근법—베이지안 확률 모델과 딥 강화학습—의 장점을 결합함으로써 해결한다. 먼저, 로봇은 사전에 제공된 2D 점유 그리드(occupancy grid)를 기반으로 자유 공간을 클러스터링하고, 각 클러스터 중심을 탐색 목표 후보로 만든다. 매 시점 로봇은 RGB‑D 센서를 통해 이미지와 깊이 정보를 획득하고, YOLO‑v11 객체 검출기를 사용해 대상 물체에 대한 확률 분포를 얻는다. 여기서 중요한 점은 다중 클래스 확률을 소프트맥스로 정규화하고, 온도 파라미터 T를 이용해 캘리브레이션함으로써 검출 신뢰도가 실제 정확도와 일치하도록 만든다.

검출 결과는 깊이 정보를 활용해 3D 좌표로 역투영한 뒤, 세계 좌표계의 점유 그리드 셀에 매핑된다. 객체는 비행 가능 영역이 아닌 점유 셀에만 존재할 수 있다는 가정 하에, 투영된 위치가 자유 공간이면 가장 가까운 점유 셀로 재배정한다. 이렇게 얻어진 셀‑레벨 관측 벡터 o는 베이지안 업데이트에 사용된다. 각 점유 셀은 K개의 객체 클래스와 배경 클래스를 포함하는 디리클레(Dirichlet) 분포 βᵢⱼ로 표현되며, 초기에는 균일한 사전(β=1)으로 시작한다. 관측 증거는 양성 검출과 시야 내에 있지만 검출되지 않은 셀에 대한 약한 부정 증거로 구성된다. 부정 증거는 로봇과 셀 사이 거리 ρ에 따라 감소하도록 설계돼, 먼 셀보다 가까운 셀에 더 큰 영향을 준다.

베이지안 융합은 기존의 단순 카운트 누적 방식 대신 Kaplan et al.이 제안한 보수적 업데이트 규칙을 적용한다. 이는 사전 파라미터와 관측 벡터를 가중 평균하고, 최소 관측값을 추가함으로써 과도한 확신을 방지한다. 결과적으로 각 셀에 대한 사후 평균 분포 ˆπ(k)ᵢⱼ는 현재 신념 지도 B에 저장되고, 이는 엔트로피 지도 H와 결합돼 DQN의 입력 텐서 T를 구성한다.

정책 학습은 Deep Q‑Network(DQN)를 이용해 수행된다. Q‑함수는 현재 신념 텐서 T와 목표 셀 g(클러스터 중심)를 입력으로 받아, 해당 목표를 선택했을 때 기대되는 반환값을 추정한다. 목표 후보는 클러스터 마스크 Mℓ에 의해 제한되며, ε‑greedy 전략으로 탐색과 exploitation을 균형 있게 수행한다. 목표가 선택되면 로봇은 기존 경로 계획 모듈을 통해 최단 경로를 따라 이동하고, 이동 중에도 지속적으로 RGB‑D 데이터를 수집해 신념 지도를 실시간으로 갱신한다.

보상 설계는 두 가지 요소를 포함한다. 첫째, 목표 물체를 일정 신뢰도(예: 75%) 이상으로 검출하면 큰 양의 보상을 부여한다. 둘째, 탐색 시간과 이동 거리 등에 비례해 비용을 부과해 불필요한 움직임을 억제한다. 이러한 보상 구조는 정책이 “신뢰도가 높은 영역으로 접근”하고 “불확실한 영역을 효율적으로 탐색”하도록 유도한다.

실험은 Habitat 3.0 시뮬레이터에서 두 개의 서로 다른 실내 맵(거실‑주방 복합 환경, 복도‑회의실 복합 환경)으로 수행됐다. 비교 대상은 (1) 베이지안 신념만 사용하고 휴리스틱 유틸리티(정보 이득 기반)로 행동을 선택하는 전통적 방법, (2) 순수 DQN이 RGB‑D 이미지와 위치 정보를 직접 입력받아 행동을 선택하는 엔드‑투‑엔드 방법이다. 평가 지표는 성공률(success rate), 평균 탐색 스텝(step count), 그리고 누적 보상이다. 결과는 제안된 하이브리드 프레임워크가 성공률을 약 12%p 상승시키고, 평균 스텝을 18% 감소시키며, 보상 면에서도 두 비교 방법을 모두 능가함을 보여준다. 특히, 불확실성이 높은 구역에서의 탐색 효율이 크게 개선되어, 베이지안 신념이 정책의 탐색 방향을 효과적으로 가이드한다는 점이 확인되었다.

이 논문의 핵심 기여는 (1) 캘리브레이션된 검출 신뢰도를 베이지안 업데이트에 직접 활용한 신뢰성 높은 신념 모델, (2) 클러스터링 기반의 탐색 공간 추상화를 통해 DQN의 행동 공간을 효율적으로 축소한 점, (3) 온라인 신념 업데이트와 정책 실행을 긴밀히 결합해 실시간 적응성을 확보한 점이다. 또한, 베이지안 신념을 정책 입력으로 사용함으로써 정책의 해석 가능성을 높이고, 학습 데이터 요구량을 감소시켰다. 향후 실제 로봇 플랫폼에 적용하기 위해서는 동적 환경(움직이는 물체, 사람)과 지도 불확실성(맵 오류) 등을 고려한 확장 연구가 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기