공간 일반화 접촉 작업을 위한 등변성 기반 계층형 로봇 정책
초록
EquiContact는 고수준 비전 플래너인 Diff‑EDF와 저수준 순응형 시각‑모터 정책인 G‑CompACT를 결합한 계층형 프레임워크이다. 두 모듈 모두 SE(3) 등변성을 갖도록 설계되어, 점 구름과 손목 RGB 이미지, 힘‑토크 센서 데이터를 이용해 로봇이 피그‑인‑홀, 나사 조이기, 표면 닦기 등 접촉‑풍부 작업을 작은 시연 데이터만으로도 공간적으로 일반화된 정책을 학습한다. 핵심 원칙은 순응 제어, 지역화된 정책, 그리고 유도된 등변성이다. 실험 결과는 1 mm 이하 정밀도가 요구되는 작업에서도 거의 완벽한 성공률과 미지의 위치·방향에 대한 강인한 일반화를 보여준다.
상세 분석
EquiContact 논문은 로봇 조작에서 “공간 일반화”라는 난제를 SE(3) 등변성이라는 수학적 구조를 활용해 해결하고자 한다. 기존의 대규모 시연 데이터에 의존하는 학습 방식은 위치·방향 변형에 취약했으며, 특히 접촉‑풍부 작업에서는 미세한 오차가 실패로 이어진다. 저자는 이를 세 가지 설계 원칙으로 정리한다. 첫째, 좌‑불변 순응 제어는 로봇의 제어 명령을 현재 엔드‑이펙터 프레임에 정의함으로써 외부 변환에 대해 자연스럽게 불변성을 확보한다. 여기서 사용된 Geometric Admittance Control(GAC)은 목표 포즈와 임피던스 이득을 직접 엔드‑이펙터 좌표계에 매핑한다. 둘째, 지역화된 정책은 관측과 행동을 모두 로컬(엔드‑이펙터) 공간에 제한한다. 구체적으로 G‑CompACT는 Geometrically Consistent Error Vector(GCEV), 힘‑토크 센서값, 손목 카메라 RGB 이미지를 입력으로 받아 상대 포즈와 임피던스 이득을 출력한다. GCEV는 현재 엔드‑이펙터와 전역 레퍼런스 프레임 사이의 오차를 엔드‑이펙터 좌표계에 투사한 형태로, 좌‑불변성을 수학적으로 보장한다. 셋째, 유도된 등변성은 고수준 비전 플래너인 Diff‑EDF가 전역 점 구름에서 목표 물체(예: 구멍)의 SE(3) 레퍼런스 프레임을 추정하고, 이 프레임을 로컬 정책의 입력으로 제공함으로써 전체 파이프라인이 등변성을 갖게 만든다. 중요한 점은 Diff‑EDF 자체가 완전한 등변 신경망은 아니지만, 출력인 레퍼런스 프레임을 통해 저수준 정책이 등변성을 “유도”한다는 점이다.
기술적으로 G‑CompACT는 기존 Action Chunking Transformer(ACT)를 변형한 구조이며, 이미지 특징은 CLIP‑ResNet50으로 추출하고 FiLM 레이어를 통해 텍스트(작업 설명)와 결합한다. 이렇게 함으로써 시각적 피드백과 언어적 목표가 동시에 정책에 반영된다. 또한, 정책은 상대 포즈와 임피던스 이득을 출력하고, 이 값은 GAC에 전달돼 순응적인 움직임 명령으로 변환된다. 논문은 이 설계가 좌‑불변(left‑invariant)임을 정리와 증명을 통해 보이며, 실험에서는 고정된 플랫폼에서 수십 개의 시연만으로도 다양한 회전·이동 변환에 대해 95 % 이상 성공률을 달성한다.
이 접근법의 강점은 (1) 샘플 효율성—소수의 시연만으로도 고정밀 삽입이 가능, (2) 실시간성—등변 신경망 대신 구조적 변환을 이용해 연산량을 크게 줄임, (3) 범용성—Peg‑in‑Hole 외에도 나사 조이기와 표면 닦기 같은 다른 접촉 작업에 그대로 적용 가능하다는 점이다. 한계로는 고수준 플래너의 레퍼런스 추정 정확도가 낮을 경우 저수준 정책이 보정에 과도한 부담을 겪을 수 있다는 점과, 현재는 엔드‑이펙터 프레임에 강하게 의존하므로 물체가 크게 움직이거나 손목 카메라 시야가 급격히 변할 경우 성능 저하 가능성이 있다. 향후 연구에서는 다중 카메라 융합이나 동적 물체 추적을 결합해 이러한 약점을 보완할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기