시점에 강인한 3D 적대 객체로 로봇 조작 정책을 속인다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 손목에 장착된 카메라와 같이 시점이 지속적으로 변하는 로봇 조작 환경에서, 2D 패치가 갖는 한계를 극복하기 위해 3차원 객체의 텍스처를 최적화하는 방법을 제안한다. 기대 변환(EOT)과 거리 기반 Coarse‑to‑Fine(C2F) 커리큘럼을 결합하고, 정책의 시각적 주의를 재배치하는 Saliency‑Guided 손실을 도입해, 목표 객체 대신 적대 객체를 향하도록 로봇을 유도한다. 실험을 통해 다양한 시점, 거리, 조명 조건에서 높은 공격 성공률을 보이며, 블랙박스 전이와 실제 물리 환경에서도 적용 가능함을 입증한다.

상세 분석

이 연구는 로봇 조작 정책이 눈‑인‑핸드 카메라에서 얻은 이미지에 직접 매핑되는 end‑to‑end 구조임을 전제로 한다. 기존 2D 패치는 평면성 때문에 카메라‑객체 간 거리·각도 변화에 따라 왜곡이 심해, 특히 손목 카메라처럼 시점이 연속적으로 변하는 상황에서 공격 효율이 급격히 떨어진다. 이를 해결하기 위해 저자들은 3D 메쉬 객체에 텍스처를 입히는 방식으로 공격 표면을 확장한다. 핵심은 두 단계 최적화 전략이다. 첫 번째는 Expectation over Transformation(EOT)이다. 텍스처 업데이트 시, 다양한 (거리 r, 방위각 θ, 고도각 ϕ) 변환을 샘플링하고, 각 변환에 대해 정책의 행동을 시뮬레이션한 뒤 손실을 평균한다. 이렇게 하면 최적화 과정이 실제 로봇이 경험할 시점 분포를 반영하게 된다. 두 번째는 Coarse‑to‑Fine(C2F) 커리큘럼이다. 저자들은 거리‑의존적인 주파수 특성을 관찰했는데, 먼 거리에서는 저주파(거친) 패턴만 인식되고, 가까운 거리에서는 고주파(섬세) 디테일이 필요하다. 따라서 초기에는 먼 시점에 초점을 맞춰 전역적인 저주파 텍스처를 학습하고, 점차 샘플링 분포를 가까운 시점으로 이동시켜 고주파 디테일을 추가한다. 이 단계적 전환은 베타 분포를 이용해 거리 샘플링 비율을 조절함으로써 구현된다.

공격 목표는 두 가지 손실로 구성된다. ① Pose Loss: 로봇의 다음 행동이 목표 객체가 아닌 적대 객체를 향하도록, 방향 코사인 유사도와 거리 L2 손실을 결합한다. ② Saliency‑Guided Loss: Grad‑CAM 기반의 사전학습된 시각 백본에서 추출한 saliency map을 이용해, 적대 객체 영역의 평균 saliency를 높이고 목표 객체 영역은 낮추는 방향으로 최적화한다. 두 손실 간 충돌을 방지하기 위해 PCGrad(Projection of Conflicting Gradients) 기법을 적용, 각 손실의 그래디언트를 서로 투사해 상쇄되는 성분을 제거한다.

또한, 로봇 시뮬레이터는 일반적으로 비미분 가능한 레스터라이징을 사용하므로, 저자들은 하이브리드 렌더링 파이프라인을 설계했다. 전체 장면은 기존 시뮬레이터로 렌더링하고, 적대 객체만은 미분 가능한 렌더러(예: PyTorch3D)로 별도 렌더링한다. 두 이미지와 마스크를 합성해 최종 입력 I_adv를 만든 뒤, 정책 네트워크에 전달한다. 이 방식은 텍스처에 대한 정확한 그래디언트를 얻으면서도 물리적 시뮬레이션의 충돌·역학을 그대로 유지한다.

실험에서는 다양한 로봇 작업(물체 잡기, 목표 위치 도달)과 환경 변수(조명, 배경, 객체 배치)를 변형시켜 공격 성공률을 측정했다. 2D 패치 대비 3D 적대 객체는 시점 변화가 큰 경우에도 평균 30%~50% 높은 성공률을 보였으며, 블랙박스 정책(다른 네트워크 구조)에도 전이 효과가 관찰되었다. 실제 로봇(UR5 + RealSense D435i)에서도 3D 프린트된 적대 객체를 사용해 동일한 공격이 재현되었으며, 물리적 파라미터(프린트 재질, 색상) 변화에도 어느 정도 강인함을 유지했다.

이 논문의 주요 기여는 (1) 시점‑일관성을 고려한 3D 텍스처 공격 프레임워크, (2) 거리‑의존적인 Coarse‑to‑Fine 최적화 커리큘럼, (3) Saliency‑Guided 손실을 통한 정책 주의 재배치, (4) 하이브리드 미분 가능 렌더링을 이용한 실시간 시뮬레이션 통합이다. 이러한 접근은 로봇 조작 시스템의 보안 취약점을 물리적 수준에서 체계적으로 드러내며, 향후 방어 메커니즘 설계에 중요한 인사이트를 제공한다.

시점에 강인한 3D 적대 객체로 로봇 조작 정책을 속인다

초록

상세 분석

댓글 및 학술 토론

의견 남기기