액티브 인지와 기억을 활용한 비마르코프 시각‑언어‑행동 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 인간의 대규모 egocentric 데이터를 활용해 비마르코프(active perception) 과정을 모델링하고, 인지·기억 모듈을 갖춘 Vision‑Language‑Action 프레임워크(CoMe‑VLA)를 제안한다. 인간‑로봇 행동을 동일한 egocentric 좌표계에 정렬하고, 3단계 사전·미세조정 학습을 통해 장기‑시계열 과제에서 견고한 탐색·조작 전략을 습득한다. 실험은 휠‑베이스 휴머노이드를 사용해 다양한 시각‑활성 인지 시나리오에서 높은 성공률을 입증한다.

상세 분석

본 연구는 로봇이 복잡한 비구조적 환경에서 목표를 달성하기 위해 “Act‑Sense‑Act” 루프를 지속적으로 수행해야 한다는 점에 주목한다. 이를 위해 저자들은 활성 인지를 비마르코프 의사결정 과정(NMDP)으로 공식화하고, 두 핵심 메커니즘인 정보 이득(mutual information gain)과 결정 분기(decision branching)를 정의한다. 정보 이득은 현재 행동 Aₜ와 미래 관측 oₜ₊₁ 사이의 조건부 상호정보량 I(oₜ₊₁;Aₜ|hₜ,oₜ) 로 정량화되며, 이는 행동이 관측을 얼마나 감소시키는지를 측정한다. 결정 분기는 과거 히스토리 hₜ와 현재 관측 oₜ에 따라 정책 π가 선택하는 행동을 의미하며, 탐색적 분기와 활용적 분기로 구분된다.

시각적 활성 인지는 “정보 발견(ID)”과 “정보 강화(IE)” 두 패러다임으로 나뉜다. ID는 뷰포인트 변화(VD)와 물리적 조작(MD)으로 대상이 시야에 들어오게 하는 과정이며, IE는 이미 보이는 정보를 고해상도로 만들기 위해 물체를 가까이 가져가는 등 정밀 조작을 포함한다. 이러한 구분은 기존 연구가 카메라 움직임만을 고려하고 조작을 무시한 한계를 극복한다.

데이터 측면에서 저자들은 CaptainCook4D와 Ego‑Exo4D 같은 대규모 egocentric 인간 데이터셋을 선택한다. 이 데이터는 손·머리 포즈, 세밀한 행동 라벨, 복잡한 오클루전 상황을 제공해 인간의 “보는‑행동” 연계를 학습하기에 적합하다. 로봇 측면에서는 2 DOF 차체, 2 DOF 머리, 양쪽 7 DOF 팔, 2 DOF 그리퍼를 갖춘 휠‑베이스 휴머노이드를 사용하고, VR 기반 텔레옵을 통해 인간 연산자를 egocentric 영상만으로 제어하게 함으로써 인간과 로봇의 행동을 동일한 egocentric 좌표계에 정렬한다.

모델 설계는 Qwen3‑VL‑2B 기반의 대형 비전‑언어 백본에 흐름‑매칭 액션 디코더와 프로프리오셉티브 메모리 인코더를 결합한 CoMe‑VLA이다. 입력은 시계열 RGB 프레임, 작업 텍스트, 인지 토큰, 관절 상태이며, 출력은 K‑step 행동 청크(위치·6D 회전·그리퍼 개방)이다. 인지 보조 헤드는 현재 단계가 완료되었는지를 판단해 자동으로 서브‑태스크 전이를 트리거하고, 듀얼‑트랙 메모리는 시각 히스토리와 관절 히스토리를 각각 별도로 인코딩해 장기 의존성을 유지한다.

학습은 (1) 인간 데이터만을 이용한 인지 사전학습, (2) 인간 데이터 전체를 이용한 전체 모델 사전학습, (3) 로봇 텔레옵 데이터로 미세조정하는 3단계로 진행된다. 이렇게 하면 인간의 풍부한 탐색·조작 프라이어를 로봇에 효율적으로 전이하면서도, 실제 로봇 환경에 맞는 미세 조정이 가능하다.

실험 결과는 휠‑베이스 휴머노이드가 복잡한 장기 과제(예: 서랍 열기·물체 탐색·정밀 잡기)에서 높은 성공률을 보이며, 동적 방해가 가해져도 메모리와 인지 모듈 덕분에 복구 능력이 뛰어나다는 것을 입증한다. 특히 인간 데이터만으로도 일정 수준의 성능을 달성하고, 로봇 데이터는 성능을 크게 향상시키는 “데모스트레이션 효율성”을 보여준다.

전반적으로 이 논문은 (1) 활성 인지를 비마르코프 과정으로 정형화, (2) 인간 egocentric 데이터와 로봇 데이터를 통합한 통일된 행동 공간 구축, (3) 인지·기억 모듈을 통한 장기 의사결정 및 서브‑태스크 전이 메커니즘 제시라는 세 가지 핵심 기여를 제공한다. 이는 기존의 단순 시점 조정 방식에서 벗어나, 조작을 포함한 복합적인 정보 탐색 전략을 학습할 수 있게 함으로써 로봇의 일반화 가능성을 크게 확대한다.

액티브 인지와 기억을 활용한 비마르코프 시각‑언어‑행동 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기