자기모방 확산 정책을 통한 효율적 견고 시각 내비게이션

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 모방학습 기반 확산 정책이 갖는 전문가 시연의 하위 최적성 및 중복 문제를 해결하고자, 정책이 스스로 생성한 고품질 궤적을 선택적으로 모방하는 자기모방 메커니즘을 제안한다. 보상 기반 커리큘럼 학습과 목표 무관 탐색을 결합해 데이터 활용 효율을 높이고, 고품질 궤적에 집중함으로써 샘플링·후처리 비용을 크게 감소시킨다. 실험 결과, 시뮬레이션 벤치마크와 실제 로봇 플랫폼 모두에서 성공률·경로 효율 모두 기존 최첨단 방법을 능가했으며, Jetson Orin Nano에서 2.5배 빠른 추론 속도를 달성했다.

상세 분석

본 연구는 시각 기반 로봇 내비게이션에서 확산 모델(Diffusion Model)을 활용한 정책(Policy)의 학습·추론 효율성을 근본적으로 개선한다는 점에서 의미가 크다. 기존 확산 기반 정책(NavDP, NoMaD 등)은 주로 전문가 시연 데이터를 모방학습(Imitation Learning, IL)으로 학습한다. IL은 데이터에 포함된 하위 최적 궤적을 그대로 학습하게 만들며, 이는 두 가지 주요 문제를 야기한다. 첫째, 전문가 데이터가 환경 변동성을 충분히 포괄하지 못해 분포 이동(Distribution Shift) 상황에서 정책이 불안정해진다. 둘째, 하위 최적 궤적이 섞여 있으면 샘플링 시 궤적 품질이 크게 편차를 보이고, 이를 보정하기 위해 “generate‑then‑filter” 파이프라인과 별도의 선택기(Selector)가 필요해 추론 지연이 증가한다.

SIDP(Self‑Imitated Diffusion Policy)는 이러한 한계를 “자기모방”이라는 새로운 학습 프레임워크로 극복한다. 핵심 아이디어는 현재 정책이 생성한 N개의 후보 궤적을 보상 함수 r(s,a)로 평가하고, 상위 k개만을 선택해 중요도 가중치 w_i = exp(r_i/τ) 로 정규화한다. 이때 보상‑가중치가 곧 목표 최적 분포 p* (a|s) ∝ π_θ(a|s)·exp(r/τ) 의 비율이 되므로, KL‑다이버전스 최소화와 동일한 효과를 얻는다. 즉, 정책은 직접 “좋은” 궤적을 생성하고 이를 모방함으로써 목표 분포에 점진적으로 수렴한다.

학습 과정에서 두 가지 보완 전략이 도입된다. ① 목표 무관 탐색(Goal‑agnostic Exploration)은 환경 초기화 시 무작위 목표를 설정하고, 해당 목표에 대한 궤적을 정책이 생성하도록 함으로써 궤적 다양성을 인위적으로 확대한다. 이는 정책이 특정 목표에 과도하게 편향되는 것을 방지하고, 장기적인 일반화 능력을 강화한다. ② 보상‑구동 커리큘럼 학습(Reward‑driven Curriculum)은 각 시나리오의 최대 보상 R_max와 보상 범위 R_range를 기준으로 학습 우선순위를 동적으로 조정한다. 보상이 낮거나 변동성이 작은 시나리오는 일시적으로 제외해 학습 노이즈를 억제하고, 학습 효율을 극대화한다.

이러한 설계는 두 가지 중요한 결과를 만든다. 첫째, 고품질 궤적이 집중적으로 모방되면서 궤적 분포가 수렴(concentration)하고, 따라서 추론 시 다수의 후보를 생성·평가할 필요가 없어진다. 결과적으로 “generate‑then‑filter” 단계가 사라지고, 단일 디노이징 과정만으로 충분히 좋은 궤적을 얻을 수 있다. 둘째, 디노이징 스텝 수를 감소시켜도 성능 저하가 최소화되므로, Jetson Orin Nano와 같은 엣지 디바이스에서 110 ms(273 ms 대비 2.5배)라는 실시간 수준의 추론 속도를 달성한다.

실험에서는 InternVLA‑N1 S1 벤치마크와 상업용 실내 씬(InternScene‑Commercial)에서 성공률(SR)과 경로 효율(SPL) 모두 기존 최첨단 NavDP보다 약 10%p 상승했으며, 시뮬레이션‑투‑실세계 전이에서도 성능 저하가 거의 없었다. 두 종류의 로봇 플랫폼(모바일 베이스와 팔이 장착된 로봇)에서 실제 환경 테스트를 수행했을 때, 장애물 회피와 목표 도달 모두 안정적으로 수행되었으며, 정책이 학습 중에 스스로 생성한 궤적을 지속적으로 재활용함으로써 데이터 효율성도 크게 향상되었다.

전체적으로 SIDP는 확산 기반 정책의 학습·추론 구조를 “자기 강화형 모방”으로 재구성함으로써, 데이터 의존성을 낮추고, 연산 비용을 절감하며, 로봇 내비게이션의 견고성을 크게 강화한다는 점에서 차세대 시각 내비게이션 연구에 중요한 이정표가 될 것으로 기대된다.

자기모방 확산 정책을 통한 효율적 견고 시각 내비게이션

초록

상세 분석

댓글 및 학술 토론

의견 남기기