픽셀 공간 목표조건 오프라인 강화학습을 통한 봉합 바늘 궤적 예측

본 논문은 로봇 보조 수술, 특히 내시경 영상만을 이용해 봉합 바늘의 미래 궤적을 예측하는 문제에 초점을 맞춘다. 기존 연구들은 주로 로봇의 관절 각도, 엔드 이펙터 위치 등 기계적인 kinematic 정보를 활용하거나, 영상에서 직접 전체 궤적을 한 번에 생성하는 생성 모델(예: diffusion, iDiff‑IL, DP4AuSu)를 적용했다. 이러한 접근법은 (1) kinematic 데이터가 없는 일반 내시경 환경에 적용하기 어렵고, (2) 전체 궤적을 한 번에 예측함으로써 인접 프레임 간의 연속성을 충분히 학습하지 못한다는 공통된 한계를 가진다. 또한, 수술 데이터는 전문가가 직접 라벨링한 키프레임이 몇 개에 불과해(보통 9개) 희소하고, 이를 직접 지도 학습에 사용하면 충분한 지도 신호를 제공하지 못한다. 이에 저자들은 “바늘 팁을 픽셀 공간에서 움직이는 에이전트”로 모델링하는 새로운 프레임워크를 제안한다. 바늘 팁의 좌표 (x, y)를 상태로 두고, 매 프레임마다 한 스텝씩 이동하는 마코프 결정 과정을 정의한다. 이렇게 하면 (a) 물리적으로 연속적인 움직임을 보장하고, (b) 각 스텝마다 행동을 선택하도록 학습함으로써 인접 프레임 간의 의존성을 명시적으로 모델링한다. 핵심 아이디어는 희소한 키프레임을 “밀도 보상”으로 전환하는 것이다. 9개의 키프레임을 이용해 x와 y 각각에 대해 자연 cubic spline을 피팅하고, 모든 프레임에 대해 보간된 좌표를 얻는다. 보간된 좌표마다 시간적 근접도에 따라 confidence(0.45~0.9)를 부여하고, 키프레임은 1.0으로 설정한다. 이렇게 얻은 per‑frame 보상은 강화학습에서 즉시 사용될 수 있다. 모델 아키텍처는 두 부분으로 나뉜다. 첫 번째는 Observation Encoder이다. 각 프레임에서 바늘 팁을 중심으로 128×128 RGB 크롭을 추출하고, 동일 영역에 전문가 궤적을 히트맵 형태로 겹쳐 4채널 입력을 만든다. 이 입력을 Spatial CNN으로 특징을 추출하고, Transformer를 통해 시계열 전체에 걸친 컨텍스트 z_c를 만든다. 가변 길이 시퀀스를 지원하기 위해 마스크드 어텐션과 bucketed batch sampling을 사용한다. 두 번째는 Goal‑conditioned Policy이다. 현재 예측 위치 ˆp_k, 목표 좌표 g_k(훈련 시는 실제 궤적, 테스트 시는 다항식 외삽), 상대 변위 g_k‑ˆp_k, 그리고 예측 진행률 k/T_pred을 sinusoidal positional encoding으로 변환한다. 이들와 z_c를 결합해 상태 s_k를 만든다. 정책은 두 헤드로 구성된다. (i) Direction Head는 9개의 이산 방향(8방향 + 정지)에 대한 확률 분포 π(a|s_k)를 출력한다. (ii) Magnitude Head는 연속적인 스텝 길이 ˆm_k∈

픽셀 공간 목표조건 오프라인 강화학습을 통한 봉합 바늘 궤적 예측

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기