방광암 진단을 위한 최신 딥러닝 모델 비교와 해석
초록
본 연구는 다기관 방광암 영상 데이터셋을 이용해 13개의 CNN·ViT 기반 모델을 5가지 옵티마이저와 함께 평가한다. 모델 성능, 캘리브레이션(ECE) 및 Grad‑CAM++ 시각화(테스트‑타임 증강 포함)를 종합적으로 분석한 결과, ConvNeXt 계열은 인‑도메인(분포 내)에서 높은 정확도를 보이나 일반화가 제한적이며, ViT·MaxViT 계열은 캘리브레이션이 우수하고 OOD(분포 외) 상황에서 해석 가능성이 높았다.
상세 분석
이 논문은 의료 영상에서 병변이 이미지의 극히 일부만 차지한다는 특성을 고려해, 최신 비전 트랜스포머(ViT)와 컨볼루션 신경망(CNN) 모델들의 방광암 분류 성능을 체계적으로 비교하였다. 실험은 공개된 다기관 방광암 데이터셋(총 279명, 4개 센터)에서 3개 센터를 학습·검증, 나머지 1개 센터를 테스트하는 4‑fold 교차 검증 방식으로 진행되었으며, 각 이미지를 224×224로 리사이즈하고 Z‑score 정규화를 적용하였다. 평가에 사용된 모델은 ConvNeXt‑B/L/S/T, MaxViT‑tiny, ViT‑h14, ViT‑l16, Swin‑B/S/T 및 Swin‑V2‑B/S/T 등 13종이며, 옵티마이저는 SGD, Adam, AdamW, Adagrad, Adadelta 다섯 가지를 동일한 하이퍼파라미터(학습률·가중치 감쇠·베타 등)로 실험했다.
성능 지표는 정확도(ACC), 균형 정확도(BACC), 정밀도(PRE), 재현율(REC), F1-score 및 평균(AVG)으로 구성했으며, 캘리브레이션 평가는 기대 캘리브레이션 오류(ECE)와 신뢰도 플롯을 사용했다. 또한 Grad‑CAM++을 적용해 각 모델이 주목하는 영역을 시각화했으며, 테스트‑타임 증강(TTA)을 도입해 시각적 설명의 일관성을 향상시켰다.
주요 결과는 다음과 같다. 1) ConvNeXt 계열은 검증 셋에서 95%에 달하는 높은 ACC를 기록했지만, 테스트 셋(특히 다른 센터)에서는 40~50% 수준으로 급격히 떨어져 일반화 능력이 제한적임을 확인했다. 2) ViT‑h14와 ViT‑l16은 일부 폴드에서 70% 이상 ACC를 유지했지만, 데이터가 적은 폴드에서는 과적합 현상이 나타났다. 3) Swin‑V2‑b는 평균 성능이 비교적 높았지만, ECE가 34%로 높은 편이라 캘리브레이션이 부실함을 보여준다. 반면 ViT‑l16은 ECE가 15% 수준으로 상대적으로 잘 캘리브레이션되었으며, MaxViT‑tiny는 캘리브레이션 변동성이 가장 작았다. 4) 실행 시간 측면에서는 MaxViT‑tiny가 가장 효율적이었으며, ViT‑h14는 7배 이상의 학습 시간이 소요돼 실용성에 한계가 있다. 5) 해석 결과는 인‑도메인(ID) 상황에서 ConvNeXt 계열이 병변 영역에 집중하는 경향이 뚜렷했으며, OOD 상황에서는 ViT·MaxViT 계열이 보다 일관된 히트맵을 제공했다. TTA를 적용하면 히트맵의 강조 영역이 더욱 명확해져 임상의 신뢰도를 높일 수 있었다.
결론적으로, 방광암 영상 분류에서는 “하나의 모델이 모든 상황을 만족한다”는 해답이 없으며, 인‑도메인 정확도가 중요한 경우 ConvNeXt를, 캘리브레이션과 OOD 해석이 요구되는 경우 ViT·MaxViT 계열을 선택하는 것이 바람직하다. 또한 옵티마이저 선택이 모델 캘리브레이션과 일반화에 큰 영향을 미치므로, 실험 환경에 맞는 최적화 전략을 병행해야 함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기