사회적 인지를 갖춘 로봇 내비게이션을 위한 기반 모델 SocialNav

읽는 시간: 4 분
...

📝 원문 정보

  • Title: SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation
  • ArXiv ID: 2511.21135
  • 발행일: 2025-11-26
  • 저자: Ziyi Chen, Yingnan Guo, Zedong Chu, Minghua Luo, Yanfen Shen, Mingchao Sun, Junjun Hu, Shichao Xie, Kuan Yang, Pei Shi, Zhining Gu, Lu Liu, Honglin Han, Xiaolong Wu, Mu Xu, Yu Zhang

📝 초록 (Abstract)

사회적 규범을 준수하는 로봇 내비게이션은 아직 해결되지 않은 과제이다. 본 연구에서는 고수준 사회 규범 이해와 저수준 사회적 준수 경로 생성을 동시에 수행할 수 있는 계층적 “뇌‑행동” 구조를 갖춘 기반 모델 SocialNav을 제안한다. 이를 위해 7백만 개 샘플로 구성된 SocNav 데이터셋을 구축했으며, 여기에는 사회적 추론 신호(연쇄 사고 설명, 사회적 통과 가능성 예측)를 제공하는 Cognitive Activation Dataset와 인터넷 영상·시뮬레이션·실제 로봇에서 수집한 다양한 전문가 궤적을 계층화한 Expert Trajectories Pyramid이 포함된다. 학습 파이프라인은 먼저 모방 학습을 통해 일반 내비게이션 능력과 사회 규범 이해를 주입하고, 이후 사회적 준수를 명시적으로 보상하는 흐름 기반 강화학습 프레임워크 SAFE‑GRPO를 적용해 능력을 정제한다. 실험 결과 SocialNav은 최신 방법 대비 성공률 38 %·사회적 준수율 46 % 향상을 달성하였다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
SocialNav 논문은 인간 사회적 행동 양식을 로봇 내비게이션에 통합하려는 시도에서 중요한 전진을 제시한다. 기존 연구는 주로 충돌 회피나 최단 경로 탐색에 초점을 맞추었으며, 사람과의 상호작용 시 발생하는 미묘한 사회적 규범(예: 개인 공간 유지, 사람 흐름에 맞춘 이동 등)을 충분히 반영하지 못했다. 이 논문은 두 가지 핵심 요소—데이터와 학습 전략—를 결합함으로써 이러한 한계를 극복한다.

첫째, SocNav 데이터셋은 7백만 개의 대규모 샘플을 통해 ‘인지 활성화(Cognitive Activation)’와 ‘전문가 궤적 피라미드(Expert Trajectories Pyramid)’라는 두 축으로 구성된다. 전자는 체인‑오브‑쓰(thought) 형태의 사회적 추론 설명과 사회적 통과 가능성 예측 라벨을 제공해 모델이 “왜 이 경로가 사회적으로 적절한가”를 언어적으로 학습하도록 만든다. 후자는 인터넷 동영상, 시뮬레이션, 실제 로봇에서 수집한 다양한 수준의 궤적을 계층화해, 저수준 모션 제어부터 고수준 전략까지 폭넓은 행동 샘플을 제공한다. 이러한 데이터 설계는 인간이 내비게이션을 수행할 때 사용하는 다중 레벨 인지 과정을 모델에 그대로 옮겨 놓은 듯한 효과를 만든다.

둘째, 학습 파이프라인은 두 단계로 나뉜다. 초기 단계에서는 모방 학습(imitation learning)으로 일반적인 이동 능력과 사회 규범에 대한 기초 이해를 주입한다. 여기서 모델은 인간 전문가의 궤적을 그대로 따라하면서, 동시에 사회적 추론 라벨을 통해 “사회적 판단”을 내재화한다. 두 번째 단계인 SAFE‑GRPO는 흐름 기반 강화학습(flow‑based RL) 프레임워크로, 기존의 보상 설계가 충돌 회피에만 집중한 것과 달리 사회적 준수 행동을 명시적으로 보상한다. 구체적으로, 사회적 통과 가능성 점수, 개인 공간 침해 정도, 사람 흐름과의 정렬 정도 등을 보상 함수에 포함시켜, 에이전트가 탐색 과정에서 사회적 규범을 스스로 최적화하도록 유도한다.

실험 결과는 두 가지 핵심 지표에서 현존 최고 성능을 크게 앞선다. 성공률(success rate)은 기존 최첨단 방법 대비 38 % 상승했으며, 사회적 준수율(social compliance rate) 역시 46 % 개선되었다. 이는 모델이 단순히 목표 지점에 도달하는 것을 넘어, 인간 공동체 내에서 자연스럽게 움직일 수 있음을 입증한다.

하지만 몇 가지 한계도 존재한다. 첫째, 데이터셋 구축 과정에서 인터넷 영상의 라벨링 품질이 일정하지 않을 수 있다. 둘째, SAFE‑GRPO는 흐름 기반 정책을 학습하기 위해 비교적 높은 계산 비용을 요구한다는 점에서 실시간 로봇 적용에 제약이 있다. 셋째, 현재 실험은 주로 실내 환경에 국한되어 있어, 복잡한 실외 혹은 다중 로봇 상황에 대한 일반화 능력은 추가 검증이 필요하다.

향후 연구 방향으로는 (1) 라벨링 자동화와 품질 보증을 위한 자기 지도 학습 기법 도입, (2) 경량화된 흐름 기반 RL 알고리즘 개발을 통한 실시간 적용, (3) 다양한 문화권·환경에 맞는 사회 규범 모델링을 위한 멀티도메인 학습 등이 제시될 수 있다. 전반적으로 SocialNav은 인간‑로봇 상호작용의 사회적 측면을 정량화하고 학습시키는 새로운 패러다임을 제시함으로써, 차세대 서비스 로봇 및 자율 주행 시스템의 실용화를 한층 앞당길 것으로 기대된다.

📄 논문 본문 발췌 (Translation)

사회적 규범을 준수하는 구현형 내비게이션은 아직 해결되지 않은 연구 과제이다. 본 연구에서는 고수준 사회 규범을 이해하고 저수준에서 사회적으로 적합한 경로를 생성할 수 있는 계층적 “뇌‑행동” 구조를 갖춘 기반 모델인 SocialNav을 제안한다. 이러한 이중 기능을 가능하게 하기 위해, 7백만 개 샘플로 구성된 대규모 SocNav 데이터셋을 구축하였다. 이 데이터셋은 (1) 사회적 추론 신호(연쇄 사고 설명 및 사회적 통과 가능성 예측)를 제공하는 Cognitive Activation Dataset와 (2) 인터넷 동영상, 시뮬레이션 환경, 실제 로봇으로부터 수집한 다양한 내비게이션 시연을 계층화한 Expert Trajectories Pyramid으로 구성된다. 모델에 내비게이션 지능을 점진적으로 주입하고 정제하기 위한 다단계 학습 파이프라인을 제안한다. 먼저 모방 학습을 통해 일반 내비게이션 기술과 사회 규범 이해를 모델에 주입하고, 이후 사회적으로 준수하는 행동을 명시적으로 보상하는 흐름 기반 강화학습 프레임워크인 SAFE‑GRPO(Socially‑Aware Flow Exploration GRPO)를 적용하여 이러한 기술을 정제한다. SAFE‑GRPO는 구현형 내비게이션을 위한 최초의 흐름 기반 강화학습 프레임워크로, 사회적 준수 행동에 대한 보상을 명시적으로 설계한다. 실험 결과 SocialNav은 최신 방법에 비해 성공률이 38 % 상승하고, 사회적 준수율이 46 % 향상되는 등 내비게이션 성능과 사회적 준수 모두에서 강력한 향상을 달성하였다. 프로젝트 페이지: https://amap-eai.github.

📸 추가 이미지 갤러리

dataset.jpg first.jpg method.jpg qualitative_vis.jpg supp_cot.jpg supp_dsim_trajs.jpg supp_poly_sim_real.jpg supp_real_robot_1125.jpg

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키