연속 삽입 초음파 영상에서 주파수 기반 Needle 탐지를 위한 ConVibNet
초록
ConVibNet은 초음파 영상에서 진동을 가한 바늘의 주파수 특성을 이용해 연속 삽입 중에도 실시간으로 바늘 팁 위치와 축 각도를 추정하는 딥러닝 프레임워크이다. 시간적 연관성을 강화하기 위해 두 연속 프레임 사이의 교차·차이 손실을 도입했으며, 기존 VibNet 및 UNet‑LSTM 대비 평균 팁 오차 2.80 mm, 각도 오차 1.69° 로 성능이 향상되었다.
상세 분석
ConVibNet은 기존 VibNet의 정적 바늘 검출 구조를 연속 삽입 상황에 맞게 확장한 모델이다. 핵심 아이디어는 바늘에 저주파 진동(≈2.5 Hz)을 가해 발생하는 주파수 도메인 신호를 Short‑Time Fourier Transform(STFT)으로 추출하고, 이를 CNN 기반의 특징 추출기에 통합함으로써 영상 내 저대비·잡음이 많은 영역에서도 바늘을 구분한다. 시간적 연속성을 반영하기 위해 L = 30 프레임(30 fps) 길이의 시퀀스를 입력으로 사용하고, 마지막 프레임에 대한 세그멘테이션 결과만을 출력한다.
특히, 저자들은 두 개의 시퀀스를 Δ = 5 프레임 차이로 독립 처리한 뒤, 교차 손실(L_inter)과 차이 손실(L_diff)을 추가함으로써 “intersection‑and‑difference loss”를 설계했다. L_inter은 두 출력 마스크의 교집합을 BCE 손실로 최소화해 정밀한 영역 일치를 유도하고, L_diff는 마스크 차이를 BCE 형태로 최소화해 시간적 변화를 학습한다. 이 두 손실은 각각 α, β 하이퍼파라미터로 가중되며, L_diff는 모델이 기본 표현을 학습한 뒤 두 번째 epoch부터 적용해 학습 안정성을 확보한다.
클래스 불균형 문제는 Focal Loss(γ = 4, η = 2)를 사용해 해결했으며, 최종 마스크가 불연속적일 경우 RANSAC 기반 직선 피팅을 수행해 바늘 축을 복원하고, 이미지 하단 가장 가까운 양성 픽셀을 축에 투사해 팁 위치를 추정한다.
데이터셋은 18 G, 90 mm 바늘을 15°·30° 두 각도로 삽입하고, 외부 NDI 트래킹 시스템으로 6 DoF 위치를 고정밀으로 기록해 자동 라벨링을 수행했다. 총 106개의 비디오(각 30 프레임)로 구성되며, 훈련·검증·테스트 비율은 8:1:1이다. 증강은 수평 뒤집기와 명암 변환으로 제한된 데이터량에 대한 일반화를 도모한다.
실험 결과, ConVibNet은 VibNet‑w/o DHT와 UNet‑LSTM 대비 팁 오차에서 평균 0.75 mm, 각도 오차에서 0.3° 정도 개선했으며, 실시간 추론(≈30 fps)도 유지한다. 이는 주파수 기반 특징과 시간적 손실 설계가 저가시성 바늘을 지속적으로 추적하는 데 효과적임을 입증한다. 또한, 차이 손실을 통한 동적 일관성 강화가 삽입 중 발생하는 미세 진동·변형을 견고히 학습하도록 돕는다.
한계점으로는 실험이 ex‑vivo 조직에서 수행됐으며, 실제 환자 조직의 복잡한 변형·혈류 잡음에 대한 검증이 부족하다. 또한, 진동 발생을 위한 하드웨어가 필요하므로 기존 임상 장비에 바로 적용하기엔 추가적인 통합 설계가 요구된다. 향후 연구에서는 다양한 조직 유형·삽입 속도에 대한 일반화, 그리고 자동화된 진동 제어와 결합한 완전 자율 삽입 시스템 구축이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기