사회적 인지를 갖춘 로봇 내비게이션을 위한 기반 모델 SocialNav
📝 원문 정보
- Title: SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation
- ArXiv ID: 2511.21135
- 발행일: 2025-11-26
- 저자: Ziyi Chen, Yingnan Guo, Zedong Chu, Minghua Luo, Yanfen Shen, Mingchao Sun, Junjun Hu, Shichao Xie, Kuan Yang, Pei Shi, Zhining Gu, Lu Liu, Honglin Han, Xiaolong Wu, Mu Xu, Yu Zhang
📝 초록 (Abstract)
사회적 규범을 준수하는 로봇 내비게이션은 아직 해결되지 않은 과제이다. 본 연구에서는 고수준 사회 규범 이해와 저수준 사회적 준수 경로 생성을 동시에 수행할 수 있는 계층적 “뇌‑행동” 구조를 갖춘 기반 모델 SocialNav을 제안한다. 이를 위해 7백만 개 샘플로 구성된 SocNav 데이터셋을 구축했으며, 여기에는 사회적 추론 신호(연쇄 사고 설명, 사회적 통과 가능성 예측)를 제공하는 Cognitive Activation Dataset와 인터넷 영상·시뮬레이션·실제 로봇에서 수집한 다양한 전문가 궤적을 계층화한 Expert Trajectories Pyramid이 포함된다. 학습 파이프라인은 먼저 모방 학습을 통해 일반 내비게이션 능력과 사회 규범 이해를 주입하고, 이후 사회적 준수를 명시적으로 보상하는 흐름 기반 강화학습 프레임워크 SAFE‑GRPO를 적용해 능력을 정제한다. 실험 결과 SocialNav은 최신 방법 대비 성공률 38 %·사회적 준수율 46 % 향상을 달성하였다.💡 논문 핵심 해설 (Deep Analysis)

첫째, SocNav 데이터셋은 7백만 개의 대규모 샘플을 통해 ‘인지 활성화(Cognitive Activation)’와 ‘전문가 궤적 피라미드(Expert Trajectories Pyramid)’라는 두 축으로 구성된다. 전자는 체인‑오브‑쓰(thought) 형태의 사회적 추론 설명과 사회적 통과 가능성 예측 라벨을 제공해 모델이 “왜 이 경로가 사회적으로 적절한가”를 언어적으로 학습하도록 만든다. 후자는 인터넷 동영상, 시뮬레이션, 실제 로봇에서 수집한 다양한 수준의 궤적을 계층화해, 저수준 모션 제어부터 고수준 전략까지 폭넓은 행동 샘플을 제공한다. 이러한 데이터 설계는 인간이 내비게이션을 수행할 때 사용하는 다중 레벨 인지 과정을 모델에 그대로 옮겨 놓은 듯한 효과를 만든다.
둘째, 학습 파이프라인은 두 단계로 나뉜다. 초기 단계에서는 모방 학습(imitation learning)으로 일반적인 이동 능력과 사회 규범에 대한 기초 이해를 주입한다. 여기서 모델은 인간 전문가의 궤적을 그대로 따라하면서, 동시에 사회적 추론 라벨을 통해 “사회적 판단”을 내재화한다. 두 번째 단계인 SAFE‑GRPO는 흐름 기반 강화학습(flow‑based RL) 프레임워크로, 기존의 보상 설계가 충돌 회피에만 집중한 것과 달리 사회적 준수 행동을 명시적으로 보상한다. 구체적으로, 사회적 통과 가능성 점수, 개인 공간 침해 정도, 사람 흐름과의 정렬 정도 등을 보상 함수에 포함시켜, 에이전트가 탐색 과정에서 사회적 규범을 스스로 최적화하도록 유도한다.
실험 결과는 두 가지 핵심 지표에서 현존 최고 성능을 크게 앞선다. 성공률(success rate)은 기존 최첨단 방법 대비 38 % 상승했으며, 사회적 준수율(social compliance rate) 역시 46 % 개선되었다. 이는 모델이 단순히 목표 지점에 도달하는 것을 넘어, 인간 공동체 내에서 자연스럽게 움직일 수 있음을 입증한다.
하지만 몇 가지 한계도 존재한다. 첫째, 데이터셋 구축 과정에서 인터넷 영상의 라벨링 품질이 일정하지 않을 수 있다. 둘째, SAFE‑GRPO는 흐름 기반 정책을 학습하기 위해 비교적 높은 계산 비용을 요구한다는 점에서 실시간 로봇 적용에 제약이 있다. 셋째, 현재 실험은 주로 실내 환경에 국한되어 있어, 복잡한 실외 혹은 다중 로봇 상황에 대한 일반화 능력은 추가 검증이 필요하다.
향후 연구 방향으로는 (1) 라벨링 자동화와 품질 보증을 위한 자기 지도 학습 기법 도입, (2) 경량화된 흐름 기반 RL 알고리즘 개발을 통한 실시간 적용, (3) 다양한 문화권·환경에 맞는 사회 규범 모델링을 위한 멀티도메인 학습 등이 제시될 수 있다. 전반적으로 SocialNav은 인간‑로봇 상호작용의 사회적 측면을 정량화하고 학습시키는 새로운 패러다임을 제시함으로써, 차세대 서비스 로봇 및 자율 주행 시스템의 실용화를 한층 앞당길 것으로 기대된다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리