정확한 의료 영상 분할을 위한 CATFA Net 전이 합성곱 하이브리드 접근
초록
CATFA‑Net은 경량 ConvNeXt 디코더와 계층형 컨텍스트 추가 트랜스포머 인코더를 결합한 하이브리드 구조로, 컨텍스트 추가 어텐션(CAP)과 교차‑채널 어텐션(CCTFA), 공간 융합 어텐션을 통해 장거리 의존성을 효율적으로 학습한다. 기존 방법보다 파라미터와 연산량을 크게 줄이면서 GLaS와 ISIC 2018 등 5개 공개 데이터셋에서 Dice 점수 94.48 %·91.55 %를 기록, 강인한 일반화와 빠른 추론 속도를 입증한다.
상세 분석
CATFA‑Net은 두 개의 병렬 인코더 흐름을 채택한다. 첫 번째 흐름은 ConvNeXt‑ 기반 합성곱 블록으로, 높은 지역적 인덕티브 바이어스를 유지하며 저해상도 특징을 빠르게 추출한다. 두 번째 흐름은 계층형 컨텍스트 추가 트랜스포머(H‑CA T)로, 기존 Swin‑Transformer의 다중‑헤드 셀프‑어텐션을 컨텍스트 추가 어텐션(CAP)으로 대체한다. CAP는 키와 쿼리를 1×1 합성곱으로 결합해 이미지 간 유사성을 강화하고, 공간 축소 블록을 통해 복잡도를 O(N²/R) 로 낮춘다. 이렇게 얻어진 변형된 키와 값은 전통적인 MSA와 결합돼 전역 의존성을 효율적으로 포착한다.
두 흐름의 출력은 교차‑채널 전이‑합성곱 융합 어텐션(CCTFA)으로 융합된다. CCTFA는 채널 차원에서의 상호작용을 강조하면서 공간 해상도를 유지해 다운샘플링 과정에서 정보 손실을 최소화한다. 디코더는 Conv‑G‑NeXt 블록과 전이‑합성곱(up‑sampling) 레이어로 구성되며, 공간 융합 어텐션(SFA) 게이트를 통해 배경 노이즈를 억제하고 중요한 구조적 특징을 강조한다. 전체 파라미터 수와 메모리 사용량은 기존 하이브리드 트랜스포머‑U‑Net 대비 30 % 이상 감소했으며, FPS는 2배 이상 향상되었다.
실험에서는 GLaS, DS Bowl 2018, REFUGE, CVC‑ClinicDB, ISIC 2018 다섯 데이터셋에 대해 교차 검증과 외부 검증을 수행했다. Dice, IoU, Sensitivity, Specificity 등 다중 지표에서 기존 최첨단 모델(U‑Net++, TransUNet, Swin‑UNet 등)을 모두 앞섰다. 특히 GLaS와 ISIC 2018에서 각각 94.48 %·91.55 %의 Dice를 달성했으며, 노이즈가 많은 배경이나 작은 병변에서도 높은 재현율을 보였다. 추가적인 Ablation Study에서는 CAP, CCTFA, SFA 각각을 제거했을 때 성능이 평균 2–4 % 감소함을 확인해 각 모듈의 기여도를 입증했다.
전반적으로 CATFA‑Net은 장거리 의존성 모델링과 지역적 세부 정보 보존을 동시에 달성하면서 연산 효율성을 크게 개선한 의료 영상 분할 프레임워크라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기