바이 어댑트: 소수 샷으로 새로운 물체 범주에 대한 양손 조작 적응

바이 어댑트: 소수 샷으로 새로운 물체 범주에 대한 양손 조작 적응
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

바이 어댑트는 비전 기반 파운데이션 모델의 의미론적 대응을 활용해 기존 카테고리에서 학습한 양손 조작 지식을 새로운 물체 범주에 빠르게 전이한다. 제한된 몇 개의 시연 데이터만으로도 접점과 자세를 재조정해 제로샷 수준의 성공률을 달성하며, 시뮬레이션·실제 환경 모두에서 복잡한 5가지 작업을 높은 정확도로 수행한다.

상세 분석

본 논문은 양손 로봇 조작의 일반화 문제를 두 단계로 해결한다. 첫 번째 단계는 ‘지원 집합(supporting set)’이라 부르는 제한된 카테고리에서 점‑레벨 행동과 자세를 학습하는 것이다. 여기서는 두 개의 서브 모듈, 즉 첫 번째 그리퍼 모듈 M₁과 두 번째 그리퍼 모듈 M₂를 설계하고, 각각 행동 제안 네트워크(A)와 행동 평가 네트워크(C)를 포함한다. 학습 시에는 데이터 흐름을 역전시켜 M₂가 먼저 다양한 M₁의 입력에 대해 협업 행동을 생성하도록 훈련하고, 이후 M₁이 M₂와의 협업을 최적화하도록 학습한다. 이 구조는 양손 간의 상호 의존성을 명시적으로 모델링하면서도 조합 폭을 크게 줄인다.

두 번째 단계는 파운데이션 모델(DIFT, DINOv2 등)의 의미론적 대응 능력을 이용해 지원 집합의 성공적인 접점들을 새로운 물체에 매핑하는 ‘어포던스 전이(affordance transfer)’이다. 2D 이미지에서 추출한 확산 특징을 기반으로 코사인 유사도를 계산해 소스 이미지의 접점과 가장 유사한 타깃 이미지의 픽셀을 찾고, 이를 깊이 맵을 통해 3D 접점으로 역투영한다. 이렇게 얻은 다수의 후보 접점 쌍은 실제 로봇 실행 후 성공 여부에 따라 선택된다.

후보 접점이 모두 유효하지 않을 수 있기에, 논문은 ‘소수 샷 적응(few‑shot adaptation)’ 절차를 도입한다. 제한된 실제 시연(수십 회 이하)에서 얻은 성공/실패 피드백을 이용해 기존 Perception Module을 미세 조정한다. 구체적으로는 가장 성공 확률이 높은 접점 쌍을 실행하고, 그 결과를 손실 함수에 반영해 A와 C 네트워크를 업데이트한다. 이 과정은 접점 선택과 자세 예측을 동시에 개선하므로, 새로운 카테고리에서도 제로샷 수준의 높은 성공률을 달성한다.

실험은 시뮬레이션과 실제 로봇 환경에서 5가지 복합 작업(언폴딩, 오프닝, 클로징, 언캡핑, 캡핑)을 대상으로 수행되었다. 지원 집합에 포함된 3~4개의 카테고리만 사용했음에도 불구하고, 새로운 카테고리의 20여 개 물체에 대해 평균 성공률 85 % 이상을 기록했다. 특히, 전이된 어포던스만 사용했을 때보다 적은 시연 횟수로도 성능이 크게 향상되는 것이 확인되었다.

한계점으로는 파운데이션 모델의 이미지 품질 및 시점에 민감하다는 점, 그리고 접점 매핑 과정에서 발생할 수 있는 잡음이 있다. 또한 현재는 두 그리퍼가 동일한 작업을 수행하도록 설계돼 있어, 비대칭적인 양손 협업(예: 한 손은 고정, 다른 손은 조작)에는 추가적인 확장이 필요하다.

전반적으로 바이 어댑트는 ‘시각적 의미론 → 행동 전이 → 소수 샷 미세조정’이라는 파이프라인을 통해 양손 조작의 데이터 효율성을 크게 높였으며, 파운데이션 모델을 로봇 조작에 적용하는 새로운 패러다임을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기