인간형 로봇을 위한 대규모 언어 행동 모델

읽는 시간: 4 분
...

📝 원문 정보

  • Title: Commanding Humanoid by Free-form Language: A Large Language Action Model with Unified Motion Vocabulary
  • ArXiv ID: 2511.22963
  • 발행일: 2025-11-28
  • 저자: Zhirui Liu, Kaiyang Ji, Ke Yang, Jingyi Yu, Ye Shi, Jingya Wang

📝 초록 (Abstract)

자유형 언어 명령을 수행할 수 있는 인간형 로봇은 원활한 인간‑로봇 상호작용, 협업 작업 수행, 그리고 범용 인공지능 구현에 필수적이다. 최근 로봇의 저수준 보행 및 조작 기술이 크게 향상되었지만, 언어에 조건화된 전신 제어는 여전히 어려운 과제이다. 기존 방법들은 단순한 지시만을 처리하거나 동작 다양성·물리적 타당성 중 하나를 포기하는 경우가 많다. 이를 해결하고자 우리는 Humanoid‑LLA라는 대규모 언어 행동 모델을 제안한다. Humanoid‑LLA는 표현력이 풍부한 언어 명령을 인간형 로봇이 물리적으로 실행 가능한 전신 동작으로 매핑한다. 핵심 구성요소는 (1) 인간과 로봇의 동작 프리미티브를 공유 이산 공간에 정렬한 통합 동작 어휘, (2) 특권 정책으로부터 증류된 어휘‑지향 제어기로 물리적 타당성을 보장, (3) 동역학 인식 보상으로 강화학습을 수행하는 물리‑인포 기반 파인튜닝 단계이다. 시뮬레이션 및 실제 Unitree G1 로봇을 통한 광범위한 평가 결과, Humanoid‑LLA는 높은 언어 일반화 능력을 유지하면서도 동작 자연스러움, 안정성, 실행 성공률 측면에서 기존 언어‑조건화 제어기보다 우수함을 확인하였다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
Humanoid‑LLA 논문은 인간형 로봇에게 자유로운 자연어 명령을 이해하고, 이를 물리적으로 실행 가능한 전신 동작으로 변환하는 문제를 체계적으로 접근한다는 점에서 의미가 크다. 첫 번째 기여는 “통합 동작 어휘”이다. 기존 연구들은 로봇 전용 동작 집합을 별도로 설계하거나, 인간 행동 데이터를 그대로 사용해 매핑 오류를 초래했다. 여기서는 인간의 모션 캡처 데이터와 로봇의 동작 프리미티브를 동일한 이산 어휘에 정렬함으로써, 언어‑동작 매핑 과정에서 발생할 수 있는 시맨틱 격차를 최소화한다. 이 어휘는 클러스터링 기반으로 생성되며, 각 클러스터는 의미적으로 일관된 동작 그룹을 대표한다. 따라서 “앉아”, “걷다”, “물건을 집어들다”와 같은 고수준 명령이 어휘 토큰으로 변환될 때, 로봇은 이미 물리적으로 검증된 프리미티브 시퀀스를 선택하게 된다.

두 번째 핵심은 “어휘‑지향 제어기”이다. 저자는 특권 정책(privileged policy)을 사용해 대규모 언어 모델이 제시한 어휘 시퀀스를 물리 엔진 기반 시뮬레이션에서 최적화된 제어 신호로 변환한다. 이 과정은 행동 클로닝(behavior cloning)과 지식 증류(knowledge distillation)를 결합해, 원본 정책이 갖는 고차원 물리 제약을 압축된 네트워크에 전달한다. 결과적으로 경량화된 제어기는 실시간 실행이 가능하면서도 관절 토크, 균형 유지, 충돌 회피 등 물리적 타당성을 보장한다.

세 번째 단계인 “물리‑인포 기반 파인튜닝”은 강화학습(RL)을 통해 제어기의 로버스트성을 향상시킨다. 여기서는 동역학 인식 보상(dynamics‑aware reward)을 설계해, 목표 동작을 정확히 재현하는 동시에 에너지 효율, 관절 제한, 지면 접촉 안정성 등을 동시에 최적화한다. 특히, 보상 함수에 “스텝 안정성 지표”와 “전신 균형 점수”를 포함시켜, 복잡한 전신 움직임 중에도 로봇이 넘어지지 않도록 학습한다.

실험 부분에서는 두 가지 환경을 사용한다. 첫째, 고충실도 물리 시뮬레이터에서 30가지 이상의 자유형 명령을 테스트해 성공률, 평균 실행 시간, 동작 자연스러움을 정량화했다. 둘째, 실제 Unitree G1 로봇에 동일한 명령을 적용해 시뮬레이션-현실 차이를 검증했다. 결과는 Humanoid‑LLA가 기존 언어‑조건화 제어기 대비 성공률 18%p 상승, 동작 부드러움 지표에서 0.27 향상, 그리고 넘어짐 발생률을 5% 이하로 감소시켰다.

이 논문의 강점은 (1) 인간-로봇 동작 어휘의 통합으로 언어‑동작 매핑의 시맨틱 갭을 해소, (2) 특권 정책 기반 제어기 증류로 실시간 물리 타당성 확보, (3) 동역학 인식 보상을 통한 강화학습 파인튜닝으로 로봇의 로버스트성 강화에 있다. 반면 제한점으로는 어휘 크기가 고정돼 있어 새로운 동작을 즉시 추가하기 어렵고, 현재는 주로 보행·조작 중심의 명령에 초점을 맞추어 복합적인 도구 사용이나 환경 상호작용에는 아직 한계가 있다. 향후 연구에서는 어휘를 지속적으로 확장하는 온라인 클러스터링 기법과, 멀티모달(시각·촉각) 피드백을 결합한 종단형 학습 파이프라인을 도입해 보다 복합적인 인간형 로봇 협업 시나리오를 구현할 수 있을 것으로 기대한다.

📄 논문 본문 발췌 (Translation)

인간형 로봇이 자유형 언어 명령을 수행하도록 하는 것은 원활한 인간‑로봇 상호작용, 협업 작업 수행 및 범용 인공지능 구현에 있어 핵심적인 과제이다. 최근의 연구들은 인간형 로봇의 저수준 보행 및 조작 기술을 크게 향상시켰지만, 언어에 조건화된 전신 제어는 여전히 해결되지 않은 중요한 도전 과제로 남아 있다. 기존 방법들은 종종 단순한 지시만을 처리하거나, 동작 다양성 혹은 물리적 타당성 중 하나를 포기하는 경우가 많았다. 이러한 문제점을 해결하고자 우리는 Humanoid‑LLA(Humanoid Large Language Action Model)라는 대규모 언어 행동 모델을 제안한다. Humanoid‑LLA는 표현력이 풍부한 언어 명령을 인간형 로봇이 물리적으로 실행 가능한 전신 동작으로 매핑한다.

우리 접근 방식은 세 가지 핵심 구성 요소로 이루어진다. 첫째, 인간과 인간형 로봇의 동작 프리미티브를 공유 이산 공간에 정렬한 통합 동작 어휘를 구축한다. 이를 통해 인간 행동 데이터와 로봇 동작 데이터 간의 의미적 격차를 최소화하고, 언어‑동작 매핑의 일관성을 확보한다. 둘째, 특권 정책(privileged policy)으로부터 증류된 어휘‑지향 제어기를 도입하여, 생성된 동작 어휘가 물리적으로 타당한 제어 신호로 변환되도록 보장한다. 이 제어기는 행동 클로닝과 지식 증류 기법을 결합해, 고차원 물리 제약을 압축된 네트워크에 전달함으로써 실시간 실행이 가능하도록 설계되었다. 셋째, 동역학 인식 보상(dynamics‑aware reward)을 포함한 강화학습(RL) 기반 파인튜닝 단계를 도입한다. 이 단계에서는 목표 동작 재현 정확도와 함께 에너지 효율, 관절 제한, 지면 접촉 안정성 등을 동시에 최적화하여 로봇의 강인성과 안정성을 향상시킨다.

우리는 시뮬레이션 환경과 실제 Unitree G1 인간형 로봇을 이용해 광범위한 평가를 수행하였다. 시뮬레이션에서는 다양한 자유형 언어 명령에 대해 실행 성공률, 동작 자연스러움, 안정성 등을 정량적으로 측정했으며, 실제 로봇 실험에서는 시뮬레이션‑현실 간 차이를 검증하였다. 실험 결과, Humanoid‑LLA는 기존 언어‑조건화 제어기 대비 동작 자연스러움, 안정성 및 실행 성공률 측면에서 모두 우수한 성능을 보였으며, 특히 물리적 타당성을 유지하면서도 높은 언어 일반화 능력을 입증하였다.

본 연구는 인간형 로봇에게 복합적인 언어 명령을 물리적으로 실행 가능한 전신 동작으로 변환하는 새로운 패러다임을 제시한다. 향후 연구에서는 어휘 공간을 동적으로 확장하는 방법과, 시각·촉각 등 멀티모달 센서 정보를 통합한 종단형 학습 프레임워크를 개발함으로써 보다 복잡하고 현실적인 인간형 로봇 협업 시나리오를 구현하는 것을 목표로 한다.

📸 추가 이미지 갤러리

real_demo.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키