수술 시선 인식 모델을 위한 데이터 중심 설계와 멀티태스크 시뮬레이션
초록
본 논문은 로봇 보조 최소 침습 수술 시뮬레이터에서 전문가와 초보자의 시선 데이터를 ‘활동형(수술 수행 중)’과 ‘수동형(영상 시청)’ 두 모드로 수집하고, 이를 바탕으로 두 종류의 시선 예측 모델(MSI‑Net, SalGAN)을 학습시켜 시선 슈퍼비전의 출처가 모델 성능에 미치는 영향을 체계적으로 평가한다. 결과적으로 수동형 시선이 활동형 시선의 상당 부분을 대체할 수 있음을 확인했으며, 특히 중급 수준의 수동 시선이 중급 활동 시선을 가장 잘 복원한다는 점을 제시한다.
상세 분석
이 연구는 로봇 보조 최소 침습 수술(RMIS) 환경에서 시선 데이터의 확보가 비용과 시간 면에서 제한적이라는 문제를 데이터 중심 설계(data‑centric design) 관점에서 접근한다. 저자들은 da Vinci SimNow 시뮬레이터와 Varjo Aero HMD를 이용해 ‘활동형(active)’ 시선 데이터를 실시간으로 기록하고, 동일한 시뮬레이션 영상을 ‘수동형(passive)’ 시선 측정을 위해 별도의 Gazepoint GP3 HD 트래커에 재생함으로써 동일 영상에 대한 두 모드의 시선 데이터를 정확히 매칭시켰다.
데이터는 네 가지 훈련 과제(A–D)와 두 수준(초보, 중급)으로 교차 설계되어 총 15명의 참가자(초보 12명, 중급 3명)로부터 수집되었다. 중급 그룹은 연구팀 내부 인원이 시뮬레이션 성능 점수 ≥95를 달성한 후 선정했으며, 이는 실제 외과 전문의와는 차이가 있음을 명시한다. 시선 전처리는 I‑DT 알고리즘으로 고정(fixation) 구간을 추출하고, 각 프레임에 2D 가우시안 히트맵을 생성해 정규화하였다.
평가 지표는 고정 횟수·시간, 고정‑비비정 비율, 스캔패스 속도, 볼록 껍질 면적, 그리고 FDM‑SIM·FDM‑CC와 같은 고정 밀도 지도 기반 유사도 측정으로 구성된다. 이러한 지표는 기존 수술 기술 평가 연구와 일관성을 유지하면서도 시선 데이터의 질적 차이를 정량화한다.
모델링 측면에서는 프레임 단위 공간 주의 예측에 초점을 맞추어, 감독 학습 기반 CNN 인코더‑디코더인 MSI‑Net과 GAN 기반 SalGAN을 비교하였다. MSI‑Net은 구조가 단순하면서도 해석 가능성이 높아 다양한 데이터 조건에서도 안정적인 성능을 보였고, SalGAN은 훈련 과정에서 불안정성을 나타내며 인간 고정과의 정합도가 낮았다.
실험 결과는 네 가지 데이터 조건(Intermediate‑Active, Intermediate‑Passive, Novice‑Active, Novice‑Passive) 각각에 대해 모델을 학습시킨 뒤, 교차 테스트를 수행한 것으로, 주요 발견은 다음과 같다. ① Passive 데이터만으로도 Intermediate‑Active 시선의 약 70 % 이상을 복원할 수 있었으며, 이는 시선 슈퍼비전 비용을 크게 절감할 수 있음을 의미한다. ② Transfer는 비대칭적이었다; Active→Passive 전이보다 Passive→Active 전이가 더 낮은 성능을 보였다. ③ Novice‑Passive 라벨은 Intermediate‑Passive 라벨을 근사하는 데 충분히 유용했으며, 고품질 Intermediate‑Passive 라벨을 약간 손실하면서도 데이터 양을 확대할 수 있는 실용적 경로를 제시한다. ④ SalGAN은 훈련 데이터 양과 품질에 민감하게 반응했으며, 특히 Passive 라벨이 혼합된 경우 과적합과 잡음에 취약했다.
이러한 결과는 수술 시선 모델링에서 ‘전문가 시선 = 고품질 라벨’이라는 전제를 완화하고, 크라우드소싱이나 비전문가 시선 데이터를 활용한 확장 가능성을 시사한다. 특히, 중급 수준의 수동 시선이 활동 시선과 높은 상관성을 보이므로, 대규모 시뮬레이션 영상에 대한 수동 시선 수집을 통해 비용 효율적인 데이터 파이프라인을 구축할 수 있다. 또한, 모델 선택에 있어 MSI‑Net과 같은 해석 가능하고 안정적인 구조가 실시간 수술 보조 시스템에 더 적합함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기