수술 지능을 위한 대규모 멀티모달 데이터와 기반 모델

SurgΣ‑DB는 6개 임상 분야와 18가지 수술 작업을 포괄하는 5.98 백만 개의 멀티모달 대화 데이터를 제공한다. 통합 스키마와 계층적 추론 라벨을 통해 다양한 시각·언어·동작 정보를 일관되게 정리했으며, 이를 기반으로 개발된 BSA, SurgVLM, Surg‑R1, Cosmos‑H‑Surgical 등 네 개의 수술 기반 모델은 작업 간 일반화와 해석 가능성을 크게 향상시킨다.

저자: Zhitao Zeng, Mengya Xu, Jian Jiang

수술 지능을 위한 대규모 멀티모달 데이터와 기반 모델
본 논문은 수술 인텔리전스 분야에서 현재까지 가장 포괄적이고 체계적인 멀티모달 데이터베이스인 SurgΣ‑DB를 제안한다. 기존 수술 AI 연구는 주로 단일 과제(예: 단계 인식, 도구 검출)와 제한된 영상 데이터에 의존해 왔으며, 데이터 간 라벨 불일치와 규모 부족으로 인해 병원·기관 간 일반화에 한계를 보였다. 이를 극복하기 위해 저자들은 ① 데이터 소스 통합, ② 통합 스키마 설계, ③ 계층적 추론 라벨링, ④ 대규모 대화형 데이터 구축이라는 네 가지 전략을 채택했다. ① **데이터 소스 통합** – 공개 데이터셋(Cholec80‑VQA, EndoVQA 등), 자체 수집한 임상 영상, 웹에서 수집한 수술 동영상 등을 모두 포함해 6개 임상 분야(위장·비뇨·부인·안과·흉부·간담)와 18가지 작업(설명, 질문‑답변, 캡션, 영상 생성, 계획 등)을 아우른다. 이렇게 다양한 출처를 하나의 데이터베이스에 모음으로써 절차적·해부학적 다양성을 확보했다. ② **통합 스키마 설계** – 모든 샘플은 이미지·비디오 레벨에서 동일한 메타데이터 구조(시술 종류, 단계, 도구, 조직 등)와 통일된 라벨 공간을 갖는다. 이는 서로 다른 데이터셋 간 라벨 매핑 비용을 크게 낮추고, 멀티태스크 학습 시 공유 표현 학습을 가능하게 한다. ③ **계층적 추론 라벨링** – 기존 VQA 스타일 데이터가 ‘질문‑답변’ 쌍에 머무는 반면, SurgΣ‑DB는 블록을 통해 단계별 사고 과정을 명시한다. 예를 들어, “두 개의 관형 구조가 보이는가?” 라는 질문에 대해 “그렇다 → 담낭 삼각형이 명확히 보인다 → 현재 단계는 결절 절제”와 같은 연쇄적 추론을 제공한다. 이러한 라벨은 모델이 체인‑오브‑쓰(Chain‑of‑Thought) 방식을 학습하도록 유도해, 답변 근거를 명시하고 해석 가능성을 높인다. ④ **대규모 대화형 데이터** – 총 5.98 M개의 멀티모달 대화(이미지·비디오 + 텍스트) 샘플을 구축했으며, 이는 기존 데이터베이스 대비 10배 이상 규모이다. 대화형 데이터는 사전 학습 단계에서 시각‑언어 정렬을 강화하고, 다양한 프롬프트에 대한 적응력을 높인다. 이러한 데이터베이스를 기반으로 네 가지 수술 기반 모델을 개발·평가하였다. **BSA**는 기본적인 수술 행동(잡기, 절단 등)이 다양한 절차에서도 일관된 패턴을 보인다는 점을 입증해, 분야 간 전이 학습이 가능함을 보여준다. **SurgVLM**은 대규모 멀티모달 instruction‑tuning을 통해 이해·추론·계획 작업을 하나의 모델로 수행하며, 작업 간 성능 격차를 크게 줄였다. **Surg‑R1**은 계층적 추론 라벨이 모델의 근거 제시 능력을 강화시켜, 복잡한 상황에서도 논리적 답변을 생성한다. 마지막으로 **Cosmos‑H‑Surgical**은 비지도 영상에서 역동학을 추정해 로봇 정책 학습에 활용, 실제 시연에서 샘플 효율성을 크게 개선하였다. 실험 결과는 모두 ‘규모’, ‘라벨 통합’, ‘추론 라벨’이라는 세 축이 모델의 일반화와 해석 가능성을 동시에 향상시킨다는 핵심 가설을 뒷받침한다. 논문의 한계점으로는 (1) 데이터 수집 과정에서 발생할 수 있는 기관·인구 통계학적 편향, (2) 라벨링 비용이 높은 전문가 주석에 대한 의존, (3) 현재는 주로 시각·텍스트·기구 정보에 국한돼 있어 생리 신호·로봇 관절 데이터 등 추가 모달리티 통합이 필요함을 들 수 있다. 향후 연구에서는 이러한 편향을 최소화하기 위한 다기관 협업, 자동화된 라벨링 기법(예: 자기 지도 학습) 도입, 그리고 실시간 수술 지원을 위한 경량화 모델 개발이 요구된다. 결론적으로, SurgΣ‑DB와 이를 활용한 기반 모델들은 수술 AI가 ‘특정 과제에 국한된 도구’에서 ‘다목적 임상 파트너’로 진화하기 위한 데이터‑중심적 토대를 제공한다. 이 데이터베이스가 공개됨에 따라 전 세계 연구자들이 대규모 멀티모달 학습에 접근할 수 있게 되고, 궁극적으로 수술 안전성·효율성 향상에 기여할 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기