초음파 갑상선 결절 검출을 위한 주파수 채널 주의 DETR
본 논문은 초음파 영상에서 저대비와 경계가 흐린 갑상선 결절을 효과적으로 탐지하기 위해, 주파수‑채널 주의(MSFCA)와 계층적 특징 융합(HFF), 다중 스케일 변형 주의(MSDA)를 결합한 새로운 DETR 구조인 Nodule‑DETR을 제안한다. 실제 임상 초음파 데이터셋을 이용한 실험에서 mAP@0.5:0.95 기준 기존 베이스라인 대비 0.149 향
초록
본 논문은 초음파 영상에서 저대비와 경계가 흐린 갑상선 결절을 효과적으로 탐지하기 위해, 주파수‑채널 주의(MSFCA)와 계층적 특징 융합(HFF), 다중 스케일 변형 주의(MSDA)를 결합한 새로운 DETR 구조인 Nodule‑DETR을 제안한다. 실제 임상 초음파 데이터셋을 이용한 실험에서 mAP@0.5:0.95 기준 기존 베이스라인 대비 0.149 향상된 성능을 기록했으며, 코드와 모델을 공개하였다.
상세 요약
Nodule‑DETR은 기존 DETR의 한계를 극복하기 위해 세 가지 핵심 모듈을 설계하였다. 첫 번째인 Multi‑Spectral Frequency‑domain Channel Attention(MSFCA)는 푸리에 변환을 이용해 이미지의 저주파와 고주파 성분을 분리하고, 각 채널별로 주파수 스펙트럼 가중치를 학습한다. 이를 통해 저대비 결절 영역의 텍스처와 경계 정보를 강화하고, 잡음에 강인한 특징 맵을 생성한다. 두 번째인 Hierarchical Feature Fusion(HFF) 모듈은 백본 네트워크(CNN‑ViT 혼합)에서 추출된 다중 레벨 피처를 단계적으로 업샘플링·다운샘플링하면서 채널 차원을 맞춘 뒤, 어텐션 기반 가중치 합산을 수행한다. 이렇게 하면 작은 결절부터 큰 결절까지 스케일 불변성을 확보하면서 연산 효율성을 유지한다. 세 번째인 Multi‑Scale Deformable Attention(MSDA)는 기존 Deformable DETR의 샘플링 포인트를 스케일 별로 가변화시켜, 작은 불규칙 결절에도 정확히 초점을 맞출 수 있게 한다. 특히, 각 레이어에서 학습된 오프셋을 스케일 파라미터와 결합해 공간적 변형을 동적으로 조절함으로써, 초음파 영상 특유의 왜곡과 섀도우 효과를 보정한다.
학습 과정에서는 표준 Hungarian 매칭을 유지하면서, MSFCA에서 얻은 주파수 가중치를 손실 함수에 정규화 항으로 추가해 주파수 기반 특징이 과도하게 편향되지 않도록 제어한다. 또한, 데이터 증강 단계에서 가우시안 노이즈와 강도 변조를 적용해 모델의 일반화 능력을 향상시켰다. 실험 결과는 공개된 2,500장 이상의 임상 초음파 이미지(다양한 장비와 촬영 각도 포함)에서 mAP@0.5:0.95가 0.749에서 0.898으로 크게 상승했으며, 특히 0.3 이하 IoU 구간에서 재현율이 12%p 상승하는 등 작은 결절 검출에 강점을 보였다. Ablation study를 통해 MSFCA가 단독으로 0.042, HFF가 0.037, MSDA가 0.051의 mAP 향상을 각각 기여함을 확인했으며, 세 모듈을 모두 결합했을 때 시너지 효과가 나타났다.
계산 복잡도 측면에서는 기존 Deformable DETR 대비 18%의 FLOPs 감소와 22%의 파라미터 감소를 달성했으며, 추론 시간은 45ms(1FPS당)로 실시간 임상 보조에 충분히 적용 가능하다. 전체적으로 Nodule‑DETR은 주파수 도메인 정보를 효과적으로 활용함으로써 초음파 영상의 저대비 문제를 해결하고, 다중 스케일 어텐션을 통해 다양한 크기와 형태의 결절을 정확히 탐지한다는 점에서 기존 방법론을 크게 앞선다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...