뇌졸중 MRI 병변 자동 분할을 위한 nnU Net 외부 검증 연구
초록
**
본 연구는 nnU‑Net 프레임워크를 이용해 급성·만성 뇌졸중 MRI 병변을 자동으로 분할하고, DWI, FLAIR, T1‑Weighted 등 다양한 영상 모달리티와 다중 공개 데이터셋을 활용해 외부 검증을 수행하였다. 급성기에는 DWI 기반 모델이 FLAIR보다 우수했으며, 다중 모달 결합은 소폭의 개선만 보였다. 만성기에서는 훈련 데이터 규모가 커질수록 Dice 점수가 향상되었지만 수백 건을 넘어서는 수익 감소가 관찰되었다. 병변 부피가 작을수록 분할 정확도가 낮았고, 훈련 시 부피 분포가 넓어야 일반화가 가능했다. 고품질 MRI로 학습된 모델은 저품질 데이터에도 잘 전이되었으나 그 반대는 어려웠다. 전반적으로 자동 분할 성능이 인간 전문가 간의 일치도 수준에 근접함을 확인하였다.
**
상세 분석
**
본 논문은 nnU‑Net이라는 “no‑new‑U‑Net” 자동화 프레임워크를 급성 및 만성 뇌졸중 MRI 병변 분할에 적용한 최초 규모의 외부 검증 연구라 할 수 있다. 먼저, 급성기에는 SOOP(1 456명)와 ISLES(250명) 두 데이터셋을 이용해 DWI·ADC 2채널 입력과 FLAIR 단일채널 입력을 각각 학습시켰다. 급성 모델에서 DWI 기반 모델이 평균 Dice 0.78, HD95 4.2 mm을 기록한 반면, FLAIR 모델은 Dice 0.71, HD95 6.1 mm에 머물렀다. 다중모달(DWI+FLAIR) 결합은 Dice 0.80 정도로 소폭 상승했지만, 계산 비용 대비 효율성은 낮았다. 이는 급성기 병변이 확산 제한에 의해 DWI에서 강하게 대비되므로, 추가적인 FLAIR 정보가 제한적임을 시사한다.
만성기에서는 ATLAS v2.0(655명), ARC(228명), CCNRP(204명) 세 데이터셋을 T1‑Weighted 영상만으로 학습하였다. 훈련 샘플 수를 100, 300, 600으로 단계적으로 늘리면서 5‑fold 교차검증을 수행했으며, Dice 점수는 각각 0.73, 0.78, 0.81로 점진적 상승을 보였지만 600건 이후에는 수익 체감이 뚜렷했다. 이는 nnU‑Net이 데이터 양에 대해 로그‑선형적 수렴 특성을 갖는다는 기존 보고와 일치한다.
병변 부피 분석에서는 1 ml 이하의 미세 병변에서 Dice < 0.5에 머물렀으며, 10 ml 이상에서는 0.85 이상으로 크게 향상되었다. 훈련 데이터에 부피가 편중된 경우(예: 대형 병변만 포함) 테스트 시 소형 병변에 대한 일반화가 급격히 저하되는 현상이 관찰되었다. 이는 손실 함수가 전체 부피에 비례해 가중치를 부여하기 때문에 발생하는 현상으로, 부피 균형 샘플링 혹은 focal Dice 손실 도입이 필요함을 암시한다.
영상 품질 측면에서는 고해상도·고SNR 데이터(예: 3 T Siemens Prisma)로 학습된 모델이 저해상도·노이즈가 큰 데이터에서도 Dice 0.77 수준을 유지했지만, 반대로 저품질 데이터로 학습된 모델은 고품질 테스트에서 Dice 0.65 이하로 급락했다. 이는 nnU‑Net이 자동 전처리와 정규화에 의존하지만, 근본적인 신호‑대‑노이즈 비율 차이를 보정하기엔 한계가 있음을 보여준다.
또한, 좌측·우측 병변 위치가 모델 성능에 미치는 영향을 조사했을 때, 좌우 비대칭성이 통계적으로 유의미하지 않았으며, 이는 nnU‑Net이 좌·우 대칭성을 학습하는 데 문제가 없음을 의미한다.
마지막으로, 모델 예측과 레퍼런스 마스크 간 불일치 사례를 상세히 검토한 결과, 다수는 인간 전문가 간 주관적 차이(예: 경계선 모호, 작은 병변 누락)에서 비롯된 것으로, 자동화된 분할이 실제 임상·연구 현장에서 인간 라벨링의 한계를 보완할 가능성을 제시한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기