에고액터: 시공간 인식 이고시적 행동으로 인간형 로봇 과제 계획 구현

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

EgoActor는 고수준 자연어 명령을 인간형 로봇의 저수준 움직임·시선·조작·인간 상호작용 행동으로 직접 매핑하는 비전‑언어 모델이다. egocentric RGB 영상, 공간 추론 QA, 시뮬레이션 데이터를 혼합 학습해 4B·8B 규모 모델을 1초 이내 실시간 추론으로 구현했으며, 시뮬레이션·현실 환경에서 장기 과제와 새로운 환경에 대한 일반화 능력을 입증한다.

상세 분석

본 논문은 인간형 로봇이 실제 환경에서 장기 과제를 수행하기 위해 필요한 ‘인지‑운동‑조작’의 통합 문제를 “EgoActing”이라는 새로운 과제 정의로 제시한다. EgoActing은 로봇이 egocentric RGB 관찰, 과거 행동 이력, 그리고 사전 정의된 저수준 정책 집합(Π)을 기반으로 고수준 자연어 명령 I에 대한 최적 행동 a를 실시간으로 선택하도록 요구한다(식 1). 이를 구현하기 위해 저자들은 기존 VLM(Vision‑Language Model) 구조를 그대로 사용하면서, Qwen3‑VL을 백본으로 삼고 LoRA( Low‑Rank Adaptation) 기법으로 모든 선형 레이어를 미세조정한다. 4 B와 8 B 두 가지 파라미터 규모를 동시에 학습함으로써 추론 속도와 성능 사이의 트레이드오프를 제공한다는 점이 실용적이다.

데이터 측면에서 EgoActor는 세 가지 주요 소스를 결합한다. 첫째, 실제 로봇이 수행한 egocentric RGB 시연 영상; 둘째, 공간 추론을 위한 질문‑답변 데이터(EgoTaskQA); 셋째, 물리 엔진 기반 시뮬레이션 환경에서 생성된 행동 트레이젝터리이다. 이러한 다중 도메인 데이터는 “구조화된 언어 행동(SLA)”과 “자연어 행동(NLA)”이라는 두 형태의 레이블을 통해 통합된다. SLA는 이동·시선 조정 등 정량적 파라미터(거리, 각도, 높이)를 템플릿 형태(예: “Turn left 30.5 degrees”)로 표현해 모델이 공간 관계를 직접 학습하도록 설계했으며, 작은 움직임은 임계값으로 필터링해 노이즈를 감소시켰다. NLA는 조작·인간‑상호작용 등 복합적인 행동을 자유로운 자연어로 기술함으로써 사전 정의된 스킬 집합에 얽매이지 않는 확장성을 확보한다.

모델은 입력으로 최근 10개의 RGB 프레임과 그에 대응하는 3개의 최근 행동‑관찰 쌍을 받아, Transformer 기반 인코더‑디코더 구조를 통해 다음 행동 시퀀스를 텍스트로 출력한다. 출력된 SLA는 파라미터 파싱 모듈을 거쳐 로봇의 저수준 제어 명령(속도, 회전 각도 등)으로 변환되고, NLA는 키워드 매핑을 통해 텍스트‑음성 변환, 사전 정의된 제스처, 혹은 VLA(Visual‑Language‑Action) 모델에 전달되는 조작 명령으로 전환된다.

실험은 시뮬레이션(다양한 레이아웃, 장애물)과 실제 환경(실제 인간형 로봇 플랫폼)에서 수행되었다. 평가 과제는 (1) 인간‑로봇 상호작용(예: 질문 후 안내 요청), (2) 모바일 조작(예: 물체 탐색·집게), (3) 협소 공간 통과(Traversability) 등으로 구성되었으며, EgoActor는 8 B 모델 기준 85 % 이상의 성공률을 보이며 기존 SayCan·UniNav 등 대비 월등한 일반화 성능을 기록했다. 특히, 구조화된 SLA를 통해 로봇이 목표 물체 앞에서 정확히 자세를 맞추고, 이후 NLA로 복잡한 조작을 수행하는 “활동적 인지 + 조작” 파이프라인이 자연스러운 인간‑로봇 협업을 가능하게 함을 시연했다.

한계점으로는 현재 RGB만을 사용해 깊이 정보를 직접 추정하지 않음으로써 급격한 높이 변화나 투명 물체 인식에 제약이 있으며, 행동 파싱 단계가 규칙 기반이므로 복잡한 연속 동작(예: 연속적인 팔 흔들기)에는 추가적인 모듈이 필요할 수 있다. 또한, LoRA 기반 파인튜닝이 대규모 데이터에 대해 충분히 스케일링될지에 대한 장기적인 검증이 남아 있다.

종합적으로, EgoActor는 VLM을 로봇 제어와 직접 연결하는 최초의 시도 중 하나로, 고수준 언어 명령을 저수준 모터 명령으로 변환하는 통합 파이프라인을 제공한다. 공개된 코드·모델·데이터셋은 향후 인간형 로봇의 멀티모달 학습 및 실시간 제어 연구에 중요한 기반이 될 것으로 기대된다.

에고액터: 시공간 인식 이고시적 행동으로 인간형 로봇 과제 계획 구현

초록

상세 분석

댓글 및 학술 토론

의견 남기기