슬롯버트 수술 영상 자기지도 객체 발견 모델
초록
**
슬롯버트는 슬롯 어텐션과 양방향 트랜스포머를 결합한 자기지도 학습 프레임워크로, 긴 수술 영상을 효율적으로 처리하면서 객체별 슬롯의 시간적 일관성을 유지한다. 슬롯 대비 손실을 도입해 슬롯 간 정규직교성을 강화하고, 마스크드 자동인코딩을 통해 영상 특징을 복원한다. 실제 복강, 담낭절제술, 흉부 수술 데이터셋에서 기존 최첨단 방법들을 능가했으며, 하드웨어 제약이 있는 의료 현장에서도 실시간에 가까운 속도로 동작한다.
**
상세 분석
**
슬롯버트는 기존 슬롯 어텐션 기반 객체 중심 모델이 직면한 두 가지 핵심 한계를 동시에 해결한다. 첫째, RNN‑형식의 순차 처리 방식은 장시간 영상에서 시간적 누적 오류와 메모리 제한으로 인해 일관된 객체 트래킹에 어려움을 겪는다. 둘째, 전체 프레임을 한 번에 병렬 처리하는 방식은 메모리 사용량이 급격히 증가해 병원 내 저사양 GPU에서는 실행이 불가능했다. 슬롯버트는 이러한 문제를 ‘Temporal Slot Transformer (TST)’ 라는 양방향 트랜스포머 모듈을 도입함으로써 극복한다. TST는 각 프레임에서 추출된 K개의 슬롯을 시퀀스 토큰처럼 취급하고, 마스크드 셀프‑어텐션을 통해 앞·뒤 프레임 정보를 동시에 활용한다. 이 과정에서 양방향 컨텍스트가 슬롯에 주입되어, 장시간에 걸친 객체의 위치·형태 변화를 안정적으로 추정한다.
또한 슬롯 대비 손실(slot‑contrastive loss)을 설계해 슬롯 벡터 간의 내적을 최소화하고, 정규화된 코사인 유사도를 기반으로 orthogonality를 강제한다. 이는 동일 객체가 여러 슬롯에 중복 할당되는 현상을 억제하고, 각 슬롯이 독립적인 의미 단위로 성장하도록 만든다. 손실 함수는 기본 재구성 손실(특징 맵 복원 L2)과 대비 손실을 가중합한 형태이며, 대비 손실의 하이퍼파라미터 λ는 실험을 통해 0.1~0.3 사이가 최적임을 확인했다.
입력 영상은 사전학습된 Vision Transformer(ViT) 기반 백본으로부터 패치 임베딩을 추출하고, 이를 슬롯 어텐션에 입력한다. 슬롯 어텐션은 K(보통 8~12)개의 슬롯을 생성하고, 각 슬롯은 이전 프레임의 슬롯 상태와 현재 프레임의 패치 특징을 RNN‑like 방식으로 초기화한다. 이후 TST가 전체 시퀀스를 한 번에 처리하면서 마스크 비율을 30%로 설정해 일부 슬롯을 의도적으로 가려놓고, 모델이 가려진 슬롯을 예측하도록 학습한다. 이 마스크드 자동인코딩 전략은 BERT와 동일한 사전학습 원리를 영상 슬롯에 적용한 것으로, 시간적 예측 능력을 크게 향상시킨다.
실험에서는 4개의 공개 수술 영상 데이터셋(복강, 담낭절제술, 흉부, 다기관 혼합)을 사용했으며, 평가 지표는 mIoU, ARI, 그리고 객체 추적 정확도(F1‑Track)이다. 슬롯버트는 기존 Slot Attention‑Video(2022), STEVE(2023), 그리고 최신 Parallel Slot Transformer(2024) 대비 각각 평균 4.2%, 3.7%, 3.9%의 mIoU 상승을 기록했다. 특히 긴 영상(>2 분)에서 시간적 일관성 지표인 Temporal IoU가 0.78에서 0.85로 크게 개선되었다. 또한 0‑shot 도메인 적응 실험에서, 한 데이터셋으로 학습한 모델을 다른 수술 종류에 바로 적용했을 때 성능 저하가 5% 이하에 머물렀으며, 이는 슬롯 대비 손실이 슬롯 간 의미적 독립성을 보장해 일반화 능력을 높인 결과로 해석된다.
연산 효율성 측면에서는 전체 파이프라인이 1080 Ti GPU 기준 초당 12프레임을 처리했으며, 메모리 사용량은 8 GB 이하로 유지돼 병원 내 일반 GPU에서도 실시간 적용이 가능하다. 이는 기존 전체 시퀀스 병렬 처리 방식이 요구하던 16 GB 이상 메모리와 비교해 50% 이상 절감된 수치이다.
요약하면, 슬롯버트는 (1) 양방향 트랜스포머를 통한 장거리 시간적 컨텍스트 통합, (2) 슬롯 대비 손실을 통한 슬롯 정규직교성 강화, (3) 마스크드 자동인코딩 기반 자기지도 학습이라는 세 축을 결합해, 수술 영상이라는 특수 도메인에서 객체 중심 표현 학습을 고성능·고효율로 구현한 혁신적 모델이라 할 수 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기