픽셀 공간 목표조건 오프라인 강화학습을 통한 봉합 바늘 궤적 예측

본 논문은 내시경 영상에서 바늘 팁의 미래 궤적을 픽셀 단위의 연속적인 행동으로 모델링하고, 목표조건 오프라인 강화학습(CQL+BC)을 적용해 희소한 키프레임 주석을 밀도 높은 보상으로 변환한다. 제안된 SutureAgent는 시공간 정보를 통합한 Transformer 기반 인코더와 9방향 이산 행동·연속 거리 조합 정책으로, 기존 영상 기반 예측 방법 대비 평균 변위 오차(ADE)를 58.6% 감소시킨다.

저자: Huanrong Liu, Chunlin Tian, Tongyu Jia

픽셀 공간 목표조건 오프라인 강화학습을 통한 봉합 바늘 궤적 예측
본 논문은 로봇 보조 수술, 특히 내시경 영상만을 이용해 봉합 바늘의 미래 궤적을 예측하는 문제에 초점을 맞춘다. 기존 연구들은 주로 로봇의 관절 각도, 엔드 이펙터 위치 등 기계적인 kinematic 정보를 활용하거나, 영상에서 직접 전체 궤적을 한 번에 생성하는 생성 모델(예: diffusion, iDiff‑IL, DP4AuSu)를 적용했다. 이러한 접근법은 (1) kinematic 데이터가 없는 일반 내시경 환경에 적용하기 어렵고, (2) 전체 궤적을 한 번에 예측함으로써 인접 프레임 간의 연속성을 충분히 학습하지 못한다는 공통된 한계를 가진다. 또한, 수술 데이터는 전문가가 직접 라벨링한 키프레임이 몇 개에 불과해(보통 9개) 희소하고, 이를 직접 지도 학습에 사용하면 충분한 지도 신호를 제공하지 못한다. 이에 저자들은 “바늘 팁을 픽셀 공간에서 움직이는 에이전트”로 모델링하는 새로운 프레임워크를 제안한다. 바늘 팁의 좌표 (x, y)를 상태로 두고, 매 프레임마다 한 스텝씩 이동하는 마코프 결정 과정을 정의한다. 이렇게 하면 (a) 물리적으로 연속적인 움직임을 보장하고, (b) 각 스텝마다 행동을 선택하도록 학습함으로써 인접 프레임 간의 의존성을 명시적으로 모델링한다. 핵심 아이디어는 희소한 키프레임을 “밀도 보상”으로 전환하는 것이다. 9개의 키프레임을 이용해 x와 y 각각에 대해 자연 cubic spline을 피팅하고, 모든 프레임에 대해 보간된 좌표를 얻는다. 보간된 좌표마다 시간적 근접도에 따라 confidence(0.45~0.9)를 부여하고, 키프레임은 1.0으로 설정한다. 이렇게 얻은 per‑frame 보상은 강화학습에서 즉시 사용될 수 있다. 모델 아키텍처는 두 부분으로 나뉜다. 첫 번째는 Observation Encoder이다. 각 프레임에서 바늘 팁을 중심으로 128×128 RGB 크롭을 추출하고, 동일 영역에 전문가 궤적을 히트맵 형태로 겹쳐 4채널 입력을 만든다. 이 입력을 Spatial CNN으로 특징을 추출하고, Transformer를 통해 시계열 전체에 걸친 컨텍스트 z_c를 만든다. 가변 길이 시퀀스를 지원하기 위해 마스크드 어텐션과 bucketed batch sampling을 사용한다. 두 번째는 Goal‑conditioned Policy이다. 현재 예측 위치 ˆp_k, 목표 좌표 g_k(훈련 시는 실제 궤적, 테스트 시는 다항식 외삽), 상대 변위 g_k‑ˆp_k, 그리고 예측 진행률 k/T_pred을 sinusoidal positional encoding으로 변환한다. 이들와 z_c를 결합해 상태 s_k를 만든다. 정책은 두 헤드로 구성된다. (i) Direction Head는 9개의 이산 방향(8방향 + 정지)에 대한 확률 분포 π(a|s_k)를 출력한다. (ii) Magnitude Head는 연속적인 스텝 길이 ˆm_k∈

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기