시각 정렬을 통한 로컬 매니퓰레이션 정책의 일반화 강화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PALM은 로봇 조작 정책을 전역·로컬 모듈로 분리하고, 로컬 입력에 대해 TCP‑중심 이미지 크롭·오버레이와 좌표·회전 정렬을 적용해 시각·자세 변동을 사전 정규화한다. 이를 통해 워크스페이스 이동, 카메라 시점 변화, 로봇 형태 차이 등 세 가지 OOD 변화를 동시에 극복하며, 추가 데이터·센서·모델 수정 없이도 시뮬레이션에서 8 %, 실제 로봇에서 24 % 수준으로 성능 저하를 최소화한다.

상세 분석

PALM은 “지역 행동 분포는 도메인 간에 불변한다”는 핵심 가정을 바탕으로, 로봇 매니퓰레이션 정책을 두 단계로 구조화한다. 첫 번째 단계는 분석적인 전역 정책으로, 전체 카메라 영상을 이용해 목표 물체의 대략적인 위치를 추정하고 엔드 이펙터를 목표 근처로 이동시킨다. 두 번째 단계는 시연 데이터로 학습된 로컬 정책으로, 미세한 접촉 동작을 담당한다. 로컬 정책의 일반화 능력을 높이기 위해 PALM은 입력 전처리 단계에서 두 가지 정렬 메커니즘을 도입한다.

시각 정렬 (Visual Alignment)
- TCP‑중심 크롭: 로봇의 툴 센터 포인트(TCP)를 이미지 좌표로 투영한 뒤, 고정 크기의 정사각형 영역을 중심으로 잘라낸다. 이 과정은 워크스페이스 이동, 카메라 회전, 로봇 형태 변화에 따른 전역 배경 변동을 크게 감소시키면서, 작업에 핵심적인 로컬 정보를 보존한다.
- TCP Overlay: 잘린 이미지에 TCP의 세 축을 색상으로 오버레이해 로봇의 자세 정보를 시각적으로 보강한다. 이는 로봇 외형이 달라져도 동일한 오버레이가 제공되므로, 크로스‑임베디언스 전이 시 시각적 차이를 메운다.
- 데이터 증강: 무관한 이미지 오버레이와 가벼운 원근 변환을 추가해 시점 다양성을 인위적으로 확대한다. 이는 로컬 정책이 “관심 영역에 집중”하도록 유도하고, 조명·배경·잡동사니에 대한 강인성을 부여한다.
자세 정렬 (Proprioceptive Alignment)
- 높이‑전용 변환: (x, y) 좌표를 제외하고 z 축 높이와 회전만을 사용한다. (x, y) 정보는 이미지 크롭을 통해 암시적으로 복원될 수 있으므로, 전역 좌표계에 종속된 입력을 제거해 워크스페이스 이동에 대한 민감도를 낮춘다.
- 카메라 프레임 회전: 엔드 이펙터 회전 행렬을 카메라 좌표계로 변환하고, 6D 회전 표현(ϕ)으로 인코딩한다. 이렇게 하면 카메라 시점이 바뀌어도 회전 상태가 일관되게 유지된다.
- 이진 그리퍼 상태: 그리퍼 개폐를 0/1 이진값으로 표현해 로봇마다 다른 그리퍼 형태·크기에 의한 차이를 무시한다.

이 두 정렬 단계는 모두 전처리 수준에서 수행되므로, 기존 행동 복제(BC) 파이프라인이나 네트워크 아키텍처를 변경할 필요가 없다. 실험에서는 ResNet‑18 기반 BC 모델에 PALM 전처리를 적용했으며, 동일한 전역 정책을 모든 비교 방법에 동일하게 사용해 로컬 정책의 순수한 일반화 효과를 측정하였다.

실험 결과는 네 가지 RLBench 시뮬레이션 과제와 두 개의 실제 로봇 과제에서 확인된다. PALM 없이 BC를 적용하면 OOD 상황에서 평균 45 %~77 %의 성공률 저하가 발생하지만, PALM을 적용하면 시뮬레이션에서는 8 % 이하, 실제 로봇에서는 24 % 이하로 감소한다. Ablation 연구에서는 각 요소가 독립적으로 기여함을 보여준다. 특히 TCP‑중심 크롭과 회전 정렬이 없을 경우 OOD 성능이 급격히 떨어지며, 오버레이와 데이터 증강은 크로스‑임베디언스와 시점 변동에 대한 추가 이점을 제공한다.

PALM의 장점은 다중 도메인(OOD) 일반화를 하나의 간단한 전처리 파이프라인으로 해결한다는 점이다. 기존 연구들은 워크스페이스, 시점, 임베디언스 각각을 별도로 다루며, 종종 시뮬레이션 기반 데이터 증강, 추가 센서(eye‑in‑hand), 혹은 복잡한 생성 모델을 필요로 했다. PALM은 이러한 부가 요소 없이도 세 축을 동시에 다루어 실용적인 로봇 시스템에 바로 적용 가능하다. 다만, 현재 구현은 로컬 작업이 비교적 단순하고 접촉이 제한적인 경우에 최적화되어 있으며, 복잡한 접촉‑다중 물체 상호작용이나 고속 동작에는 추가 연구가 필요하다.

시각 정렬을 통한 로컬 매니퓰레이션 정책의 일반화 강화

초록

상세 분석

댓글 및 학술 토론

의견 남기기