객체에 의한 시야 차단을 고려한 불확실성 기반 모바일 조작 강화학습
초록
본 논문은 물체가 센서를 가려 발생하는 시야 차단 문제를 해결하기 위해, 충돌 가능성을 확률분포로 예측하고 위험·불확실성을 내재 비용으로 활용하는 CURA‑PPO 프레임워크를 제안한다. 2D LiDAR 기반 부분 관측 환경에서 분포형 충돌 추정기와 신뢰도 맵을 결합해, 로봇이 조작과 동시에 정보를 탐색하도록 유도한다. 실험 결과, 기존 방법 대비 성공률이 최대 3배 향상되었으며, 장애물 회피와 능동 인식 행동을 학습한다.
상세 분석
CURA‑PPO는 비전 기반 비접촉 조작에서 흔히 발생하는 ‘객체‑유도 시야 차단(occlusion)’ 문제를 POMDP 형태로 공식화하고, 위험(risk)과 불확실성(uncertainty)을 별개의 내재 보상으로 도입한다는 점에서 혁신적이다. 핵심 모듈인 Distributional Collision Estimator(DCE)는 현재 관측 oₜ에 대한 충돌 가능성 Cπ의 확률분포를 양자화 회귀(quantile regression) 방식으로 추정한다. N=50개의 양자값을 예측함으로써 기대값(R)과 분산(U)을 각각 위험과 불확실성으로 계산하고, 이를 PPO의 surrogate objective에 추가 비용 C_R, C_U 로 삽입한다. 위험 비용은 충돌 회피를, 불확실성 비용은 관측 영역을 확장하려는 행동을 강화한다.
또한, 신뢰도 맵(confidence map)은 LiDAR 스캔을 시간에 따라 지수 감쇠(α=0.9)시키고, VAE 기반 인코더를 통해 100×100 픽셀 로컬 윈도우를 잠재벡터 zₜ 로 압축한다. 이는 오래된 관측을 낮은 신뢰도로 처리해, 숨겨진 장애물이 나타났을 때 과거 데이터에 의존하는 오류를 방지한다. 정책 네트워크는 proprioceptive, object, goal, 그리고 zₜ 네 가지 입력을 결합해 베이스와 엔드‑이펙터의 목표 속도(v_b,des, v_e,des)를 출력하고, 차동 역기구학을 통해 관절 명령으로 변환한다.
학습은 Isaac Sim에서 2048개의 병렬 환경을 활용해 RTX 4090 GPU 위에서 수행되며, PPO의 클리핑 기법과 함께 DCE의 에너지 거리 손실(L_DCE)로 분포 일관성을 유지한다. 실험에서는 물체 크기, 장애물 위치·수, 동적 장애물 등장 시점 등을 다양하게 변형했으며, CURA‑PPO는 기존 PPO, risk‑only PPO, 그리고 비분포형 충돌 예측 모델 대비 성공률이 1.8~3배, 평균 충돌 횟수가 40% 이상 감소하는 결과를 보였다. 특히, 로봇이 물체 뒤쪽으로 살짝 후퇴하거나 회전해 시야를 복구하는 ‘능동 인식’ 행동이 자연스럽게 학습된 점이 눈에 띈다.
한계점으로는 2D LiDAR에 국한된 센서 모델링, 시뮬레이션‑실제 격차, 그리고 DCE 학습 시 양자 수와 배치 크기에 따른 계산 비용 증가가 있다. 향후 3D 깊이 센서 통합, 온라인 신뢰도 맵 업데이트, 그리고 멀티‑에이전트 협업 시나리오에 적용하면 더욱 일반화된 솔루션이 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기