단일 영상 기반 수술 로봇 동작 추정과 모방 학습

단일 영상 기반 수술 로봇 동작 추정과 모방 학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SurgiPose는 단일 내시경 영상만으로 외과용 로봇 도구의 6자유도 자세와 관절 각도를 추정하는 차별화된 렌더링 파이프라인이다. 거친 초기 추정과 차별화 가능한 렌더링을 결합해 최적화하며, 이를 통해 얻은 궤적을 이용해 모방 학습 정책을 훈련한다. 실험 결과, 영상 기반 추정 궤적으로 학습한 정책이 실제 로봇의 측정 궤적으로 학습한 정책과 유사한 성공률을 보이며, 대규모 온라인 수술 영상 활용 가능성을 입증한다.

상세 분석

SurgiPose는 기존의 스테레오·마커 기반 자세 추정 방법이 갖는 하드웨어 의존성을 탈피하고, 인터넷에 공개된 단일 영상 데이터만으로도 정확한 6DoF 자세와 관절 각도를 복원한다는 점에서 혁신적이다. 핵심 아이디어는 두 단계의 파이프라인이다. 첫 번째 단계인 ‘거친 초기 추정’에서는 SAM2 기반 세그멘테이션으로 도구 마스크를 얻고, 마스크 중심을 기준으로 3×3 격자와 0~2π 범위의 z축 회전을 조합해 36개의 후보 포즈를 생성한다. 각 후보는 차별화 가능한 렌더러에 입력되어 짧은 최적화 과정을 거친 뒤 평균 픽셀 손실을 계산하고, 손실이 최소인 후보를 초기값으로 선택한다. 이 과정은 초기값이 실제 포즈와 크게 차이나는 경우에도 로컬 최소에 빠지는 위험을 크게 감소시킨다.

두 번째 단계인 차별화 가능한 렌더링 최적화에서는 MuJoCo에서 생성한 합성 데이터셋을 활용해 도구의 정규화된 3D 가우시안 스플래팅 모델을 학습한다. 여기에는 정적 캔오니컬 모델, 관절 변형 필드, 그리고 관절 각도에 따른 변형을 동시에 학습하는 3단계가 포함된다. 최적화 목표 함수는 SSIM과 MSE를 가중합한 형태(L_combined = α(1‑SSIM)+ (1‑α)MSE)이며, α=0.8로 설정해 구조적 유사성을 강조한다. 회전 매개변수는 행렬 형태로 업데이트하고, 번역 매개변수는 클램프를 적용해 급격한 변동을 억제한다. 관절 각도는 물리적 제한을 고려해 클램프 후 경사 하강법으로 업데이트한다.

실험에서는 dVRK Si 플랫폼의 대형 바늘 드라이버를 사용해 조직 들어올리기와 바늘 집기 두 작업을 수행하였다. 220·224개의 시연을 각각 영상과 로봇 측정 궤적으로 수집한 뒤, 영상만을 이용해 추정한 궤적을 기반으로 행동 복제 정책을 학습시켰다. 정책 평가는 성공률, 궤적 재현 정확도, 그리고 작업 단계별 정밀도 등을 포함한다. 결과는 영상 기반 추정 궤적으로 학습한 정책이 측정 궤적으로 학습한 정책과 통계적으로 유의미한 차이가 없으며, 특히 초기 포즈와 관절 각도 복원에서 평균 위치 오차가 2~3 mm 수준으로 충분히 낮았다. 이는 차별화 가능한 렌더링이 복잡한 관절 움직임과 조명 변동을 효과적으로 보정한다는 것을 의미한다.

또한, 영상‑기반 궤적을 로봇에 직접 재현했을 때도 주요 단계(접근, 집기, 들어올리기)가 인간 시연과 거의 동일하게 수행되었으며, 정량적 비교에서 평균 포즈 오차가 4 mm 이하, 관절 각도 오차가 5° 이하로 나타났다. 이는 단일 영상만으로도 실시간 로봇 제어에 충분한 정밀도를 제공한다는 강력한 증거다.

한계점으로는 초기 프레임에서 마스크 세그멘테이션 오류가 발생하면 전체 추정이 불안정해질 수 있다는 점, 그리고 현재는 10 fps 이하의 프레임당 10회 반복 최적화가 필요해 실시간 적용에 추가 가속이 요구된다는 점을 들 수 있다. 향후 연구에서는 경량화된 차별화 가능한 렌더러와 더 정교한 초기 추정 네트워크를 결합해 실시간 처리와 복잡한 장면(다중 도구, 혈액 흐름 등)에서도 강인성을 확보할 필요가 있다.

전반적으로 SurgiPose는 단일 영상 기반 로봇 자세 추정과 대규모 모방 학습을 연결하는 중요한 교량 역할을 수행한다. 공개된 수술 영상 데이터를 활용해 로봇 정책을 자동으로 생성할 수 있는 기반을 제공함으로써, 향후 데이터‑드리븐 수술 자동화와 VLA(vision‑language‑action) 모델 구축에 큰 영향을 미칠 전망이다.


댓글 및 학술 토론

Loading comments...

의견 남기기