다중작업 학습 기반 CNN‑BiLSTM과 공동분포 손실을 이용한 수술 영상 도구·단계 동시 인식
본 논문은 수술 영상에서 외과 도구와 수술 단계(phase)를 동시에 인식하기 위해, 사전학습된 ResNet‑50 기반 CNN에 양방향 LSTM(Bi‑LSTM)을 결합한 다중작업 프레임워크를 제안한다. 도구‑단계의 동시 발생 빈도를 역빈도 형태의 공동분포 손실(Joint Distribution Loss)로 추가하여 클래스 불균형과 상호 의존성을 보정한다. Cholec80 데이터셋에서 도구 인식 mAP 0.99, 단계 인식 mAP 0.86을 달성…
저자: Shanka Subhra Mondal, Rachana Sathish, Debdoot Sheet
본 논문은 외과 수술 영상에서 도구 사용 상황과 수술 단계(phase)를 동시에 인식하는 새로운 다중작업 학습 프레임워크를 제안한다. 기존 연구들은 주로 CNN만을 이용하거나, CNN‑RNN 구조를 사용해 각각의 과제를 별도로 해결했으며, 도구와 단계 사이의 상관관계를 손실 함수에 반영하지 못했다는 한계를 가지고 있었다. 이를 극복하기 위해 저자들은 다음과 같은 설계 원칙을 채택하였다.
1. **CNN 기반 시각 특징 추출**
- ImageNet 사전학습된 ResNet‑50을 사용해 224×224 크기의 프레임을 입력으로 2048‑차원 피처를 추출한다.
- 마지막 완전연결층을 두 개의 헤드(도구, 단계)로 교체하고, 각각에 맞는 손실 함수를 적용한다.
2. **다중작업 손실 설계**
- **단계 손실**: 가중 교차 엔트로피(L₁)로, 각 단계 클래스에 median‑frequency 기반 가중치 w₁을 부여해 불균형을 보정한다.
- **도구 손실**: 가중 멀티라벨 소프트 마진 손실(L₂)로, 각 도구 클래스에 가중치 w₂를 적용한다.
- **공동분포 손실**: 도구‑단계 동시 발생 행렬 C를 구축하고, 이를 정규화·역빈도(IF) 함수로 변환해 L₃을 정의한다. L₃ = Σ_i Σ_j ˆx₁
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기