로보미터: 궤적 비교로 확장하는 범용 로봇 보상 모델

로보미터: 궤적 비교로 확장하는 범용 로봇 보상 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

로보미터는 전문가 시연의 절대 진행 라벨과 실패·비최적 궤적 간의 상대적 선호 정보를 결합한 이중 손실을 이용해 대규모 1백만 궤적 데이터셋(RBM‑1M)에서 학습되는 범용 로봇 보상 모델이다. 프레임‑단위 진행 예측으로 보상의 절대 규모를 고정하고, 궤적‑비교 선호 학습으로 전역적인 순서를 부여해 실패 데이터까지 활용한다. 실험 결과, 기존 방법 대비 보상 순위 상관도와 성공·실패 구분 정확도가 크게 향상되었으며, 온라인·오프라인 RL, 모방학습 데이터 필터링, 자동 실패 탐지 등 다양한 downstream 작업에서 2‑4배 이상의 성공률 개선을 보였다.

상세 분석

로보미터는 현재 로봇 학습에서 널리 사용되는 “절대 진행 라벨” 방식의 한계를 정확히 짚어낸다. 전문가 시연에서는 진행을 0~1 사이의 연속값으로 라벨링하기가 쉽지만, 실제 현장에서는 실패·비최적 궤적이 대다수를 차지하고 이들에 대해 진행을 정의하기가 모호하다. 로보미터는 이러한 문제를 두 가지 축으로 해결한다. 첫째, 프레임‑단위 진행 손실(L_prog)을 유지해 전문가 궤적에 대한 절대 스케일을 고정한다. 진행 라벨을 연속값이 아닌 N개의 구간으로 이산화(C51 방식)해 분류형 손실로 학습함으로써 VLM의 사전학습된 시각‑언어 표현을 그대로 활용한다. 둘째, 궤적‑비교 선호 손실(L_pref)을 도입해 동일 작업·명령어에 대해 두 궤적 중 어느 쪽이 더 높은 진행을 보였는지를 이진 분류한다. 이때 선호 토큰을 삽입해 양쪽 영상 전체를 동시에 attend하게 함으로써 전역적인 순서 제약을 모델에 주입한다. 선호 손실은 실제 인간 라벨이 아닌, 자동 생성된 “실패 vs 성공”, “시간 역전”, “시퀀스 트리밍” 등 다양한 데이터 증강을 통해 얻는다. 결과적으로 모델은 “절대값은 전문가가, 상대값은 전체 데이터가”라는 두 축의 정보를 상호 보완적으로 학습한다.

데이터 측면에서 로보미터는 RBM‑1M이라는 1백만 궤적 규모의 대규모 멀티모달 데이터셋을 구축한다. 21개의 로봇 형태(양팔, 단팔, 모바일 매니퓰레이터)와 인간 시연 영상, 시뮬레이션, 자동 정책 롤아웃에서 수집된 성공·실패 데이터를 균형 있게 포함한다. 특히 실패 궤적에 대해 진행 라벨을 부여하지 않고도 선호 학습에 활용함으로써 기존 데이터셋이 버려졌던 부분을 재활용한다. 또한, 동일 길이 T 로 정규화하고, 진행 토큰과 선호 토큰을 삽입하는 토크나이징 설계는 VLM의 사전학습 구조를 깨뜨리지 않으면서도 새로운 헤드를 학습할 수 있게 한다.

실험에서는 6개의 OOD(Out‑of‑Distribution) 씬에서 보상 순위 상관도(Rank‑Corr)를 14% 평균 향상시켰으며, 성공·실패 구분 정확도는 32% 상승했다. downstream 평가에서는 (1) 온라인 RL에서 정책이 빠르게 수렴하고 성공률이 2.4‑4.5배 향상, (2) 오프라인 RL에서 노이즈가 섞인 데이터에서도 높은 샘플 효율성, (3) 모방학습 데이터 필터링에서 고품질 시연만을 자동 추출, (4) 다중 로봇·기관에 걸친 제로샷 실패 탐지에서 높은 정확도를 기록했다. 특히 선호 손실만을 사용한 경우에도 전문가 궤적만으로 학습한 모델보다 우수한 성능을 보였으며, 이는 전역적인 순서 제약이 내부 보상 표현을 더 구조화한다는 증거다.

한계점으로는 선호 쌍 생성 과정이 자동이지만 여전히 데이터 증강 정책에 의존한다는 점, 그리고 VLM 기반이므로 고해상도 영상·긴 궤적에 대한 메모리·연산 비용이 증가한다는 점을 들 수 있다. 향후 연구에서는 인간 피드백을 혼합한 하이브리드 선호 학습, 멀티모달(힘·터치) 신호 통합, 그리고 경량화된 트랜스포머 구조를 통한 실시간 적용 가능성을 탐색할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기