다중질환 흉부 X레이 분류를 위한 딥러닝 모델 비교 연구
본 연구는 5가지 흉부 질환(심장비대, COVID‑19, 정상, 폐렴, 결핵)을 포함한 18,080장의 균형 잡힌 단일 라벨 CXR 데이터셋을 이용해 ConvNeXt‑Tiny, DenseNet121, DenseNet201, ResNet50, ViT‑B/16, EfficientNetV2‑M, MobileNetV2 등 7가지 최신 딥러닝 아키텍처를 동일한 학습 환경에서 비교하였다. 모든 모델이 90% 이상의 정확도를 달성했으며, ConvNeXt‑T…
저자: Ali M. Bahram, Saman Muhammad Omer, Hardi M. Mohammed
본 논문은 흉부 X레이 이미지에서 5가지 주요 질환(심장비대, COVID‑19, 정상, 폐렴, 결핵)을 단일 라벨 형태로 분류하는 다중클래스 문제에 대해 최신 딥러닝 아키텍처 7종을 체계적으로 비교한다. 연구 배경으로는 전 세계적인 방사선과 전문의 부족과 진단의 주관성·변동성을 극복하기 위한 AI 기반 자동 진단의 필요성을 제시한다. 기존 연구들은 주로 단일 질환 혹은 소수의 모델만을 비교했으며, 데이터 불균형과 전처리 차이로 인한 결과 재현성 문제가 있었다. 이를 보완하기 위해 저자들은 세 개의 공개 데이터셋(NIH ChestX‑ray14, COVID‑19 Radiography Database, Mendeley Tuberculosis Dataset)을 환자‑단위로 통합·정제하고, 각 클래스가 거의 동일한 수(약 3,600~3,720장)로 구성된 18,080장의 균형 잡힌 데이터셋을 구축하였다. 데이터는 훈련 13,108장, 검증 1,455장, 테스트 3,517장으로 나누었으며, 환자 겹침을 방지해 데이터 누수를 차단했다.
모델로는 ConvNeXt‑Tiny, DenseNet121, DenseNet201, ResNet50, Vision Transformer (ViT‑B/16), EfficientNetV2‑M, MobileNetV2를 선정했으며, 모두 ImageNet 사전학습 가중치를 사용해 전이 학습을 수행했다. 전처리 파이프라인은 이미지 리사이징(224×224), 정규화, 랜덤 회전·수평 플립·색상 변형 등을 포함했으며, 하이퍼파라미터는 학습률 1e‑4, AdamW 옵티마이저, Cosine Annealing 스케줄, 배치 크기 32, 최대 50 epoch(조기 종료 적용)으로 통일했다. 실험은 동일한 GPU 환경(RTX 3090)에서 진행돼 모델 간 비교의 공정성을 확보했다.
성능 평가는 전체 정확도, AUROC, Precision, Recall, F1‑score, 파라미터 수, 학습 시간 등을 다각도로 수행했다. 결과적으로 모든 모델이 90% 이상의 테스트 정확도를 기록했으며, ConvNeXt‑Tiny가 92.31% 정확도와 95.70% AUROC로 최고 성능을 보였다. ResNet50와 ViT‑B/16도 각각 92.00%와 91.87% 정확도를 달성했으며, 특히 ViT는 전역적인 self‑attention 덕분에 결핵·COVID‑19와 같이 특징이 뚜렷한 클래스에서 AUROC 99.97% 이상을 기록했다. 반면, 파라미터와 연산 효율성 면에서는 MobileNetV2가 3.5 M 파라미터로 가장 가벼우면서도 90.42% 정확도와 94.10% AUROC를 달성, 훈련 시간 48분으로 가장 빠른 결과를 보였다. DenseNet 계열은 7~8 M 파라미터로 무겁지만 안정적인 성능을 유지했고, EfficientNetV2‑M은 중간 규모(21 M)와 좋은 정확도(≈91%)를 제공했다.
클래스별 분석에서는 결핵과 COVID‑19가 거의 완벽한 구분(AUROC ≥ 99.97%)을 보인 반면, 정상, 심장비대, 폐렴은 방사선 소견이 겹쳐 재현율이 다소 낮았다(0.88~0.92). Grad‑CAM 시각화 결과, 모든 모델이 병변 부위에 집중하는 패턴을 보여 임상적 해석 가능성을 확인했다. 또한, 모델 효율성 평가에서 MobileNetV2는 최고 효율 점수를 받아, 저사양 의료기관이나 모바일 진단 기기에 적합함을 강조했다.
논문의 주요 기여는 (1) 클래스 불균형을 해소한 균형 잡힌 다중질환 CXR 데이터셋 구축, (2) 최신 CNN 및 Transformer 기반 모델을 동일 조건에서 포괄적으로 비교, (3) 다중질환 분류를 위한 CheXNet 프로토콜을 단일 라벨 형태로 재구성해 해석성을 높인 점이다. 한계점으로는 데이터가 여전히 공개 데이터에 의존해 실제 임상 현장과의 도메인 차이가 존재할 수 있으며, 외부 검증을 위한 프로스펙티브 코호트가 부족하다는 점을 제시한다. 향후 연구에서는 다양한 의료기관 데이터와 멀티모달 정보를 결합한 모델 확장, 경량 모델의 온디바이스 추론 최적화, 그리고 불확실성 추정 기법을 도입해 임상 적용성을 높이는 방향을 제안한다.
결론적으로, 고성능을 유지하면서도 연산 자원이 제한된 환경에서도 실용적인 딥러닝 모델을 선택할 수 있음을 실증했으며, 이는 자원 풍부·제한 양쪽 모두에서 AI 기반 흉부 질환 진단 보조 시스템 도입에 중요한 근거를 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기