카메라 공간 VLAs를 위한 효율적 경량 모델 cVLA

카메라 공간 VLAs를 위한 효율적 경량 모델 cVLA
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

cVLA는 사전학습된 비전‑언어 모델(PaliGemma2)을 활용해 이미지 좌표계에서 로봇 엔드‑이펙터의 키포즈를 직접 예측한다. 2‑단계(키포즈 → 저레벨 플래너) 구조와 1‑스텝 토큰 예측 방식으로 학습 비용을 크게 낮추면서도 시뮬레이션·실제 로봇에서 좋은 전이 성능을 보인다. 깊이 이미지 활용, 다양한 디코딩 전략, 데모 기반 1‑샷 모방 학습 등도 탐색한다.

상세 분석

본 논문은 Vision‑Language‑Action(VLA) 분야에서 “카메라‑스페이스” 접근법을 제안한다는 점에서 의미가 크다. 기존 VLA 모델들은 6‑DoF 로봇 좌표계에서 연속적인 제어 명령을 출력하거나, 복잡한 시계열 예측을 수행해 학습 비용이 높았다. cVLA는 이러한 한계를 극복하기 위해 두 가지 핵심 설계를 도입한다. 첫째, 입력 프롬프트에 RGB(및 선택적 깊이) 이미지와 현재 로봇 상태, 자연어 명령을 결합하고, 출력으로는 이미지 프레임 좌표계에서 정규화된 (x, y, depth) 키포즈 두 개만을 토큰 형태로 예측한다. 이 키포즈는 사후에 저레벨 플래너에 의해 연속적인 궤적으로 변환된다. 둘째, 사전학습된 대형 VLM인 PaliGemma2의 어텐션 레이어만 미세조정함으로써 파라미터 수를 최소화하고, 기존 VLM이 갖춘 강력한 이미지 인코더와 토큰화 메커니즘을 그대로 활용한다.

키포즈 토큰화는 1024개의 위치 토큰과 128개의 방향 토큰을 사용해 절대 좌표와 회전 정보를 이산화한다. 깊이 정보를 추가로 입력받을 때는 깊이 맵을 viridis 컬러맵으로 변환해 RGB와 동일한 이미지 인코더에 통과시킨다. 이는 별도의 깊이 전용 네트워크를 설계할 필요 없이 VLM의 이미지 처리 능력을 그대로 활용할 수 있게 한다.

실험에서는 CLEVR 기반 단순 형상과 Objaverse 기반 복합 객체 두 가지 데이터셋을 각각 easy·hard 난이도로 변형해 학습·평가하였다. Ablation 결과, 깊이 입력이 모든 설정에서 성공률을 6~18%p 상승시켰으며, 과도한 도메인 랜덤화(augmentation)는 시뮬레이션 성능을 약간 저하시켰다. 또한, 키포즈를 이미지 좌표계로 정의함으로써 로봇 기구학에 독립적인 “embodiment‑agnostic” 특성을 확보했다.

추가적으로 논문은 두 가지 추론 전략을 제안한다. (1) 입력 이미지 크롭을 통한 집중적 시야 확보, (2) beam‑search‑NMS라는 다중 후보 생성 후 비최대 억제(NMS) 기반 선택 기법이다. 이들 전략은 특히 DR‑OID‑hard와 같은 다중 모달 분포가 존재하는 실제 장면에서 성공률을 눈에 띄게 끌어올렸다.

데모 기반 1‑샷 모방 학습에서는 <데모 이미지 + 데모 궤적 + 현재 이미지> 형태의 프롬프트를 사용해 모델이 새로운 장면에 동일 작업을 적용하도록 학습한다. 실제 로봇 실험에서는 별도 파인‑튜닝 없이 시뮬레이션에서 학습된 모델을 그대로 적용했으며, 평균 위치 L1 오차는 23 cm, 회전 오차는 57° 수준을 기록했다. 이는 기존 VLA가 요구하던 대규모 실세계 데이터 없이도 충분히 실용적인 성능을 달성했음을 의미한다.

전반적으로 cVLA는 (1) 경량화된 학습 파이프라인, (2) 카메라‑스페이스 키포즈 기반 로봇 제어, (3) 깊이와 다양한 디코딩 전략을 통한 성능 향상, (4) 1‑샷 데모 기반 모방 학습이라는 네 가지 축을 통해 VLA 연구의 비용·데이터·전이 장벽을 크게 낮추는 방향을 제시한다. 향후 연구에서는 키포즈 수를 늘려 복잡한 다중 단계 작업을 다루거나, 시계열 토큰 예측을 결합해 연속적인 장기 계획 능력을 확장할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기