자동 라벨링 데이터셋으로 갑상선 결절 분류 성능 향상
초록
본 연구는 자동 라벨링 파이프라인(MADLaP)을 이용해 대규모 초음파 이미지 데이터셋을 구축하고, 이를 사용한 딥러닝 모델이 수작업으로 라벨링된 소규모 데이터셋보다 높은 악성 판별 AUC를 달성함을 입증하였다. 전체 자동 데이터셋을 그대로 활용하는 것이 정확도가 높은 부분집합만 사용하는 것보다 성능이 우수함을 확인하였다.
상세 분석
이 논문은 갑상선 초음파 영상에서 양성·악성 결절을 구분하는 딥러닝 모델의 학습에 필요한 라벨링 비용을 크게 절감할 수 있는 자동 데이터 구축 방법을 제시한다. 기존 연구에서 제안된 MADLaP 파이프라인은 자연어 처리(NLP), 광학 문자 인식(OCR), 그리고 이미지 세그멘테이션 모델을 결합해 병리 보고서와 방사선 보고서에서 결절 정보를 추출하고, 초음파 이미지 내에 표시된 캘리퍼스를 자동 검출한다. 이를 통해 3,981명의 환자(총 5,228 이미지)에서 전·후방(횡단·종축) 두 장씩을 자동 선택·라벨링하였다. 자동 라벨링의 정확도는 검증셋에서 83%, 수율은 63%로 보고되었으며, 이는 수작업 라벨링에 비해 다소 낮지만 데이터 양이 크게 증가한다는 장점이 있다.
모델 아키텍처는 6개의 3×3 컨볼루션 레이어와 5개의 2×2 맥스풀링 레이어, 50% 드롭아웃, 마지막 시그모이드 출력층을 갖는 비교적 단순한 CNN이다. 클래스 불균형을 완화하기 위해 focal loss를 적용하고, 학습률 0.001, RMSProp 옵티마이저, 배치 크기 32~1024를 실험하였다. 10‑fold 교차 검증 결과, 수작업 데이터셋(Manual Set)만으로 학습한 모델의 AUC는 0.643(95% CI 0.62‑0.66)였으며, 자동 라벨링 전체 데이터셋(MADLaP Set)에서는 0.694(95% CI 0.67‑0.73)로 통계적으로 유의하게 향상(P < 0.001)했다. 정확도가 높은 Stage 1 부분집합(S1 Set)만 사용했을 때의 AUC는 0.689(95% CI 0.66‑0.72)로 전체 자동 데이터셋과 차이가 없었다(P = 0.43). 배치 크기를 늘릴수록 자동 라벨링 데이터에서 모델 성능이 점진적으로 개선되는 경향을 보였으며, 이는 노이즈가 포함된 데이터에서 큰 배치가 일반화 성능을 안정화시키는 기존 연구와 일치한다.
결과적으로 자동 라벨링을 통해 얻은 대규모 데이터는 라벨 정확도가 완벽하지 않더라도, 데이터 양의 증가가 모델 성능 향상에 기여함을 증명한다. 이는 라벨링 인력과 비용이 제한된 의료 AI 개발 환경에서 자동화 도구의 실용성을 강조한다. 다만, 자동 라벨링 정확도가 83%에 머무르는 점, 악성 사례가 전체 이미지 중 매우 적은 비율(약 5%)에 불과한 점, 그리고 단일 기관·단일 장비 데이터에 국한된 점은 외부 검증과 일반화에 한계를 남긴다. 향후 다기관·다기기 데이터와 보다 정교한 라벨링 검증 절차를 도입하면 자동 라벨링 기반 학습의 신뢰성을 더욱 높일 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기