투명 물체 조작을 위한 3D 시각‑촉각 융합 정책 TransDex

TransDex는 투명 물체를 다루는 로봇 손의 자가‑오클루전과 깊이 센서 노이즈 문제를 해결하기 위해, 트랜스포머 기반 점군 복원 사전학습을 도입한다. 사전학습된 인코더는 마스크·노이즈가 가해진 손‑물체 상호작용 점군에서 물체의 완전한 3D 형태를 복원하고, 이후 계층적 인코딩과 다중 라운드 어텐션을 통해 시각·촉각 정보를 융합해 팔과 손 각각에 맞는 동작을 예측한다. 실제 로봇 실험에서 투명 물체의 액체 붓기·플라스크 흔들기·컵 회전 등 과…

저자: Fengguan Li, Yifan Ma, Chen Qian

투명 물체 조작을 위한 3D 시각‑촉각 융합 정책 TransDex
본 논문은 투명 물체를 다루는 로봇 손의 조작에서 발생하는 ‘시각적 불확실성’ 문제를 근본적으로 해결하고자 한다. 기존 연구들은 주로 깊이 보정, 세그멘테이션, 혹은 2단계 파이프라인을 통해 물체 형태를 복원한 뒤, 복원된 정보를 기반으로 그립 포즈를 생성하는 방식을 사용했으며, 이러한 접근법은 다중 손가락 로봇 손에 의한 자체 가림과 투명 물체의 굴절·반사 현상으로 인해 심각한 오류 누적을 겪는다. 저자는 이러한 한계를 극복하기 위해 두 단계로 구성된 새로운 프레임워크, ‘TransDex’를 제안한다. 첫 번째 단계는 ‘점군 복원 사전학습(pre‑training)’이다. 로봇 손‑물체 상호작용 장면을 PyBullet 시뮬레이터에서 생성하고, ClearPose 데이터셋의 일상용품·실험기구를 사용해 다양한 물체를 배치한다. 손과 물체의 표면에서 균일하게 샘플링한 점들을 합쳐 전체 점군 P_tot을 만든 뒤, 물체 점군에 가우시안 노이즈와 마스크를 적용해 관측된 점군 P′_obj를 만든다. 이때 마스크 비율 R_mask는 30%~80%까지 변동시켜 모델이 부분 가려진 상황에서도 물체 구조를 추론하도록 훈련한다. 점군은 FPS와 K‑NN을 통해 패치 단위로 묶이고, 각 패치는 트랜스포머 입력 토큰으로 변환된다. 마스크된 패치는 입력에서 제외되며, 남은 패치 토큰은 트랜스포머 인코더에 전달된다. 인코더는 전역적인 cls 토큰을 포함해 전체 점군의 잠재 표현을 학습한다. 이후 디코더 단계에서는 3D 공간에 무작위 쿼리 포인트를 생성하고, 이들을 양성(물체 표면)·음성(배경·손)으로 라벨링한다. 디코더는 인코더에서 얻은 잠재 벡터와 쿼리 포인트의 위치 임베딩을 결합해 각 쿼리 포인트가 물체에 속할 확률을 예측한다. 손‑물체 점군에 마스크와 노이즈가 존재함에도 불구하고, 모델은 물체의 전체 형태와 정확한 포즈를 복원하는 능력을 획득한다. 두 번째 단계는 사전학습된 인코더를 활용한 ‘시각‑촉각 융합 정책’이다. 실제 로봇 시스템에서는 (1) 손‑물체 점군, (2) 로봇 팔의 관절 각도, (3) 촉각 센서(압력·접촉 면적) 데이터를 동시에 수집한다. 손‑물체 점군은 사전학습 인코더에 입력돼 고차원 토큰 시퀀스를 만든다. 팔 관절과 촉각 데이터는 각각 별도 선형 레이어를 통해 임베딩된 뒤, 다중 라운드 어텐션 블록에 투입된다. 첫 라운드에서는 시각 토큰 간의 self‑attention을 수행해 전역 물체 구조를 강조하고, 이후 cross‑attention을 통해 촉각 임베딩과 결합한다. 두 번째 라운드에서는 촉각‑시각 상호작용을 재조정해 미세 접촉 정보를 강조한다. 최종적으로 두 개의 정책 헤드가 각각 팔의 이동 명령(위치·속도)과 손가락의 세부 그립 명령(관절 토크·포지션)을 출력한다. 실험은 실제 로봇 플랫폼(5‑finger Allegro Hand + UR5e 팔)에서 투명 컵, 플라스크, 비커 등을 대상으로 세 가지 작업을 수행했다. 각 작업은 30회 반복했으며, 성공 기준은 물체를 목표 위치에 정확히 놓고, 액체가 흘러내리지 않으며, 지정된 회전 각도를 유지하는 것이었다. TransDex는 평균 78%의 성공률을 기록했으며, 기존 ClearGrasp‑기반 파이프라인(53%), SwinDRNet‑기반(61%), 그리고 단순 2D‑3D 융합 정책(65%)을 크게 앞섰다. 또한, 사전학습 없이 정책만 학습한 경우 성공률이 62%로 감소했으며, 사전학습만 사용한 경우(시각‑촉각 융합 없이) 55%에 머물렀다. 이는 두 모듈이 상호 보완적으로 작용함을 시사한다. 추가적인 ablation 실험에서는 마스크 비율, 노이즈 수준, 그리고 어텐션 라운드 수를 변형했다. 마스크 비율이 70%까지 증가해도 복원 정확도는 85% 이상 유지됐으며, 어텐션 라운드를 2→3으로 늘릴 경우 정책 성능이 4%p 향상되었다. 일반화 실험으로는 훈련에 사용되지 않은 새로운 투명 물체(예: 유리병)와 조명 변화를 적용한 환경에서도 성공률이 70% 이상 유지돼, 모델이 실제 현장 변동에 강인함을 보여준다. 결론적으로, TransDex는 (1) 트랜스포머 기반 점군 복원 사전학습을 통해 시각적 불확실성을 사전에 보정하고, (2) 다중 라운드 어텐션을 활용한 시각‑촉각 융합 정책으로 팔·손 각각에 최적화된 동작을 생성한다. 이는 투명 물체 조작이라는 특수하고 어려운 문제에 대한 실용적인 엔드‑투‑엔드 솔루션을 제공한다. 향후 연구에서는 더 고해상도 촉각 이미지, 실시간 온라인 사전학습 업데이트, 그리고 경량화된 트랜스포머 구조를 도입해 산업 현장 적용성을 높이는 방향이 제시된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기