2.5D와 3D 모델을 결합한 COVID‑19 CT 진단 프레임워크

본 논문은 COVID‑19 및 기타 폐질환의 자동 진단을 목표로, 다중 기관에서 수집된 흉부 CT 데이터를 활용한 PHAROS‑AIF‑MIH 벤치마크에서의 성능을 극대화하기 위해 2.5D와 3D 딥러닝 모델을 결합한 새로운 프레임워크를 제안한다. 연구 배경으로는 CT 영상이 3차원적인 해부학적 정보를 제공함에도 불구하고, 데이터 출처가 다양해짐에 따라 스캐너 종류, 프로토콜, 환자 인구통계적 차이 등으로 인한 도메인 쉬프트가 모델 일반화를 저해한다는 점을 들었다. 또한, 의료 AI의 공정성 문제가 대두됨에 따라 성별·연령·인종 등에 따른 성능 격차를 최소화하는 것이 필수적이다. **데이터 전처리** 원본 axial 슬라이스를 기반으로 3D 볼륨을 재구성하고, 중복 슬라이스를 제거한 뒤 128×128×128 정규화된 공간 해상도로 리사이징한다. 이후 3D 가우시안 디노이징 필터와 마스크 샤프닝을 적용해 해부학적 경계를 강조하고, 픽셀 값을 0~255의 그레이스케일로 정규화한다. **3D 브랜치 설계** - **아키텍처**: 3D ResNet‑18을 사용, 첫 번째 컨볼루션을 단일 채널 입력에 맞게 수정. - **도메인 일반화**: VREx(Variance Risk Extrapolation)를 사전학습 단계에 적용, 각 도메인(병원·스캐너·성별 등)별 손실의 평균과 분산을 최소화하는 정규화 항 λ=1.0을 사용해 도메인 불변 표현을 학습한다. - **감독 대비 학습**: 사전학습 후, 교차 엔트로피와 감독 대비 손실(τ=0.07)을 결합해 클래스 간 임베딩 거리를 조정한다. MixUp(α=0.4)으로 데이터 다양성을 높인다. - **학습 스케줄**: 사전학습 5 epoch(학습률 1e‑4), 파인튜닝 20 epoch(학습률 1e‑5)이며, AdamW와 코사인 학습률 스케줄링, weight decay 1e‑5를 적용한다. **2.5D 브랜치 설계** - **멀티뷰 슬라이스 추출**: 재구성된 3D 볼륨에서 axial, coronal, sagittal 평면 각각 8~12장의 슬라이스를 균등하게 샘플링, 224×224 크기로 리사이징. - **백본**: DINOv3 비전 트랜스포머를 사용, 대규모 자연 이미지에서 사전학습된 자기지도 학습 모델을 의료 영상에 전이한다. CT 슬라이스는 1채널이지만, 채널 복제 혹은 입력 레이어 조정을 통해 3채널 입력 형태에 맞춘다. - **피처 융합**: 각 평면별 임베딩을 피처 레벨에서 평균하거나 가중합해 하나의 통합 벡터를 만든 뒤, 경량 분류 헤드를 추가한다. - **학습 단계**: (1) 백본 고정, 분류 헤드 10 epoch(학습률 1e‑3); (2) 상위 트랜스포머 레이어 점진적 언프리징 15 epoch(학습률 1e‑4); (3) 전체 엔드‑투‑엔드 파인튜닝 20 epoch(학습률 5e‑5). 데이터 증강으로는 회전(±15°), 수평 플립(0.5), 스케일링(0.8–1.2), 밝기·대비 조절, 가우시안 노이즈(σ=0.01), 랜덤 컷아웃(10% 마스크) 등을 적용한다. **앙상블 전략** 두 브랜치의 로짓을 평균해 최종 예측을 도출한다. 로짓 수준 앙상블은 확률 분포를 직접 결합함으로써 개별 모델이 놓칠 수 있는 미세한 패턴을 보완하고, 소스별 성능 변동성을 감소시킨다. **실험 및 결과** - **데이터**: PHAROS‑AIF‑MIH 벤치마크는 4개의 서로 다른 기관에서 수집된 CT 스캔을 포함, 이진 COVID‑19 검출(총 1,532 샘플)과 4클래스 다중 질환 분류(Healthy, Adenocarcinoma, Squamous Cell Carcinoma, COVID‑19) 두 과제로 구성된다. 성별 별 라벨도 제공돼 공정성 평가가 가능하다. - **이진 검출**: 3D ResNet‑18은 정확도 87.01%, Macro F1 0.7648을 기록, 특히 Source 2에서 F1 0.4828로 도메인 쉬프트에 취약함을 보였다. 2.5D DINOv3는 정확도 93.51%, Macro F1 0.8221로 전반적으로 우수했으며, Source 2에서도 동일한 낮은 점수를 보였지만 다른 소스에서는 0.94 수준을 유지했다. 앙상블은 정확도 94.48%, Macro F1 0.9426으로 최고 성능을 달성, 특히 Source 0과 Source 1에서 F1 0.9659와 0.9431을 기록해 두 모델의 보완 효과를 입증했다. - **다중 클래스**: 3D 모델은 정확도 76.77%, Macro F1 0.6677, 남성 F1 0.7249 vs 여성 0.6104로 성별 격차가 존재. 2.5D 모델은 정확도 76.77% (동일), Macro F1 0.7229, 남성 0.7848 vs 여성 0.6611로 비교적 작은 격차. 클래스별로는 COVID‑19와 Normal 클래스에서 높은 정밀도·재현율을 보였으며, Adenocarcinoma와 Squamous Cell Carcinoma는 특히 재현율이 낮아 개선 여지가 있다. 앙상블은 정확도 76.77%와 Macro F1 0.7229를 유지했으며, 소스별 F1 점수는 2.5D 모델과 유사하지만 안정성 면에서 약간 향상되었다. **공정성 분석** 성별 별 성능 차이를 정량화한 결과, 2.5D 모델이 3D 모델보다 성별 편향이 적으며, 앙상블 역시 두 모델의 평균적인 편향을 완화한다. 이는 멀티뷰 슬라이스가 다양한 해부학적 변이를 포착해 인구통계적 차이에 대한 민감도를 낮추는 효과를 가짐을 시사한다. **기여 및 의의** 1. 2.5D 멀티뷰와 3D 볼륨 정보를 동시에 활용하는 하이브리드 프레임워크를 제안, 각각의 장점을 보완. 2. 3D 브랜치에 VREx 기반 도메인 일반화와 감독 대비 학습을 도입해 다중 기관 데이터에 대한 강인성을 확보. 3. DINOv3 사전학습 모델을 의료 영상에 성공적으로 전이, 데이터 부족 문제를 완화. 4. 로짓 수준 앙상블을 통해 전체 성능 및 소스별 안정성을 크게 향상, 공정성 측면에서도 긍정적인 효과를 확인. **한계 및 향후 연구** - Source 2와 같이 데이터 양이 적고 품질이 낮은 경우 여전히 성능 저하가 관찰돼, 보다 정교한 도메인 어댑테이션 기법(예: 도메인 적대 학습, 메타러닝) 도입이 필요하다. - 현재는 3개의 정형화된 평면만 사용했으나, 비정형 슬라이스 혹은 병변 중심의 ROI 추출을 결합하면 더욱 세밀한 특징 학습이 가능할 것으로 기대된다. - 공정성 평가는 성별에 국한되었으며, 연령·인종·사회경제적 요인에 대한 다차원 평가가 향후 과제로 남는다. 종합적으로, 본 논문은 다중 소스 의료 영상에서의 일반화와 공정성을 동시에 고려한 실용적인 딥러닝 설계 사례를 제공하며, 향후 임상 적용을 위한 견고한 기반을 마련한다.

2.5D와 3D 모델을 결합한 COVID‑19 CT 진단 프레임워크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기