정밀 피부암 탐지를 위한 VGG16·DenseNet201 비교 연구
** 본 논문은 3,297장의 피부 병변 이미지를 이용해 VGG16과 DenseNet201 두 CNN 모델을 이진 분류(양성·악성) 작업에 적용하고, 정확도와 학습 시간을 비교한다. 전처리로 224×224 리사이징 및 기본적인 데이터 증강을 수행했으며, DenseNet201이 93.79%의 최고 정확도를 기록하고 VGG16은 87.49%에 머물렀다. 모델 구조·하이퍼파라미터 설정, 혼동 행렬, SHAP·Grad‑CAM 시각화 등을 제시하지만…
저자: Mohammad Tahmid Noor, B. M. Shahria Alam, Tasmiah Rahman Orpa
**
본 논문은 피부암 조기 진단을 위한 인공지능 기반 접근법을 탐구한다. 연구 배경으로 피부암이 전 세계적으로 높은 발병률과 사망률을 보이며, 조기 발견이 치료 성공률을 크게 좌우한다는 점을 강조한다. 기존 연구에서는 CNN 모델이 피부 병변 이미지에서 특징을 자동 추출해 높은 분류 성능을 달성했지만, 실제 임상 적용을 위한 모델 선택과 효율성 비교는 아직 충분히 이루어지지 않았다.
**연구 목적**은 두 가지 대표적인 전이 학습 기반 CNN, VGG16과 DenseNet201을 동일한 데이터셋에 적용해 정확도와 학습 효율을 비교하고, 모델이 어떤 시각적 특징에 주목하는지 해석하는 것이다.
**데이터셋**은 온라인 공개 소스에서 수집한 3,297장의 피부 병변 사진으로 구성된다. 양성(benign) 이미지 1,800장, 악성(malignant) 이미지 1,497장으로, 클래스 불균형이 존재한다. 모든 이미지는 224×224 픽셀로 리사이징하고, 픽셀값을 0‑1 범위로 정규화하였다. 데이터 증강으로 회전, 좌우·상하 뒤집기, 대비 조절을 적용해 학습 데이터의 다양성을 확보하였다.
**전처리 및 모델 구성**
- **VGG16**: ImageNet 사전 학습 가중치를 로드한 뒤, 최상위 fully‑connected 레이어를 2개의 클래스에 맞게 교체하였다. 학습률 0.0002, 배치 20, 에포크 108, Adam 옵티마이저, early stopping(patience=20)를 사용하였다.
- **DenseNet201**: 동일하게 사전 학습 가중치를 활용하고, 최상위 레이어를 이진 분류용으로 교체하였다. 학습률 0.0001, 배치 20, 에포크 62(본문에서는 80이라고 언급), Adam 옵티마이저, early stopping(patience=15)를 적용하였다. 두 모델 모두 dropout 레이어를 삽입해 과적합을 억제하려 했지만 구체적인 비율은 명시되지 않았다.
**학습 및 평가**
VGG16은 전체 정확도 87.49%를 기록했으며, 양성 클래스에서 정밀도 0.95·재현율 0.78, 악성 클래스에서 정밀도 0.78·재현율 0.95를 보였다. 혼동 행렬에 따르면 양성 40건을 악성으로, 악성 7건을 양성으로 오분류하였다. 학습 시간은 약 9시간 23분이며, 에포크당 평균 330초가 소요되었다.
DenseNet201은 전체 정확도 93.79%로 VGG16보다 우수했으며, 양성 정밀도 0.98·재현율 0.89, 악성 정밀도 0.88·재현율 0.98을 달성하였다. 오분류는 양성 19건, 악성 3건에 그쳤다. 학습 시간은 약 8시간 31분, 에포크당 평균 374초가 소요되었다.
**시각화 및 해석**
SHAP과 Grad‑CAM을 이용해 모델이 이미지의 어느 부분에 주목했는지 시각화하였다. DenseNet201의 Grad‑CAM 결과는 악성 병변의 불규칙한 경계와 색상 변화를 강조했으며, 이는 임상의가 실제로 진단에 활용하는 시각적 단서와 일치한다. 이러한 시각화는 블랙박스 모델의 투명성을 높이고, 의사와 AI 간 신뢰 구축에 기여한다.
**비교 및 논의**
두 모델의 성능 차이는 DenseNet201이 밀집 연결(dense connections) 구조를 통해 특징 재사용을 극대화하고, 파라미터 효율성을 높인 데 기인한다. 그러나 논문은 모델 복잡도, 메모리 요구량, 추론 속도 등 실제 임상 적용에 중요한 요소를 정량적으로 제시하지 않았다. 또한, 데이터셋 규모가 작고 다양성이 부족해 외부 데이터에 대한 일반화 능력을 검증하지 못했다.
**한계점**
1. **데이터 제한**: 3,297장의 이미지와 단일 출처는 모델이 다양한 피부톤·병변 형태를 학습하기에 충분하지 않다. 공개된 ISIC 데이터셋과 같은 대규모 데이터와의 비교가 필요하다.
2. **검증 방법 부재**: 교차 검증(k‑fold)이나 별도의 테스트 셋을 사용하지 않아 모델 성능의 변동성을 평가하지 못했다.
3. **성능 지표 부족**: 정확도 외에 AUC, 민감도·특이도, 평균 F1‑score 등 의료 분야에서 필수적인 지표가 충분히 보고되지 않았다.
4. **클래스 불균형 처리 미흡**: 단순 증강 외에 가중치 손실, focal loss, SMOTE 등 불균형을 직접 다루는 기법이 적용되지 않았다.
5. **모델 경량화 및 배포**: 모바일·임상 현장에서 실시간 추론을 위한 경량 모델과의 비교가 없으며, 실제 배포를 위한 최적화 방안이 논의되지 않았다.
**향후 연구 방향**
- 대규모 공개 데이터셋을 활용한 외부 검증 및 다중 기관 데이터 통합.
- k‑fold 교차 검증 및 독립 테스트 셋을 통한 모델 일반화 평가.
- AUC, 민감도·특이도, 평균 F1‑score 등 다양한 지표를 포함한 종합 성능 분석.
- 클래스 불균형을 위한 가중치 손실, focal loss, SMOTE 등 고급 기법 적용.
- MobileNet, EfficientNet 등 경량 모델과의 비교를 통해 임상 현장 적용 가능성 탐색.
- 모델 설명성을 강화하기 위해 SHAP, Grad‑CAM 외에 LIME, Counterfactual 설명 등 다양한 XAI 기법 도입.
**결론**
본 연구는 동일한 전처리와 하이퍼파라미터 설정 하에 VGG16과 DenseNet201을 비교함으로써, DenseNet201이 피부암 이진 분류에서 더 높은 정확도와 낮은 오분류율을 보인다는 사실을 확인하였다. 그러나 데이터 규모·다양성, 검증 설계, 성능 지표 등 여러 측면에서 한계가 존재한다. 향후 연구에서는 보다 방대한 데이터와 엄격한 검증 절차, 다양한 평가 지표 및 경량 모델 비교를 통해 실제 임상 적용 가능성을 높이는 것이 필요하다.
**
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기