콘포칼 레이저 현미경 이미지 기반 대장암 분류를 위한 딥 전이학습
본 연구는 소형 라 rat 모델에서 얻은 대장 및 복막의 콘포칼 레이저 현미경(ClM) 영상을 이용해, 전이학습 기반 합성곱 신경망(CNN)으로 악성·양성 조직을 구분하는 가능성을 평가한다. VGG‑16, Inception‑V3, DenseNet‑121, SE‑ResNeXt‑50 네 가지 아키텍처와 ‘오프‑더‑쉘프’, 부분 동결(2단계), 전체 미세조정, 스크래치 학습 네 가지 학습 전략을 비교하였다. 결과는 복막 전이암 구분에서 AUC 0.9…
저자: Nils Gessert, Marcel Bengs, Lukas Wittig
본 논문은 대장암 및 복막 전이암을 실시간으로 탐지하기 위한 새로운 영상 기반 보조 도구로서, 콘포칼 레이저 현미경(Confocal Laser Microscopy, CLM) 영상을 활용한 자동 분류 방법을 제시한다. 기존에 CLM은 현미경 수준의 초고해상도를 제공하여 외과 의사가 직접 영상을 판독해 조직의 양성·악성을 구분했으나, 인간의 판독은 시간과 전문성에 크게 의존한다. 따라서 저자들은 딥러닝, 특히 전이학습(Transfer Learning)을 이용해 자동화된 분류 모델을 구축하고, 그 효율성을 체계적으로 평가하였다.
데이터셋은 독일 루벡 대학병원에서 수행된 전임상 실험에서 얻은 것으로, 10마리의 랫드에 대장 선암세포를 이식하고 7일 후 복강경을 통해 CLM 영상을 촬영하였다. 각 영상은 384 × 384 픽셀, 현장 시야는 300 µm × 300 µm이며, 총 1,577장의 이미지가 확보되었다. 이미지 품질이 낮은 경우를 제외하고, 건강 대장(HC) 533장, 악성 대장(MC) 309장, 건강 복막(HP) 343장, 악성 복막(MP) 392장으로 라벨링되었다. 라벨은 CLM 촬영 부위의 조직을 절제 후 조직학적 검증을 통해 확정하였다.
연구는 세 가지 이진 분류 과제를 설정하였다. 첫 번째는 기관 구분(HC vs HP)으로, CLM 영상만으로 대장과 복막을 구별할 수 있는지를 평가한다. 두 번째는 복막 악성 구분(HP vs MP)으로, 복막 내 전이암을 탐지한다. 세 번째는 대장 악성 구분(HC vs MC)으로, 대장 내 종양을 식별한다. 각 과제는 임상적 의사결정에서 중요한 단계이며, 특히 복막 전이암은 조기 발견이 환자 생존에 큰 영향을 미친다.
모델 아키텍처는 네 가지를 선택하였다. (1) VGG‑16에 배치 정규화(BN)를 추가한 버전은 구조가 단순해 전이학습 효과를 명확히 파악하기 위한 베이스라인이다. (2) Inception‑V3는 멀티‑패스와 1 × 1 축소 연산을 결합해 효율적인 피처 추출이 가능하다. (3) DenseNet‑121은 DenseBlock을 통해 이전 레이어의 피처를 재사용함으로써 파라미터 효율성을 높인다. (4) SE‑ResNeXt‑50은 ResNeXt 구조에 Squeeze‑and‑Excitation 모듈을 결합해 채널 간 상호작용을 강화한다. 네 모델 모두 ImageNet으로 사전 학습된 가중치를 사용한다.
전이학습 전략은 다음과 같이 다섯 가지로 구분된다. ① 오프‑더‑쉘프(Off‑the‑shelf): 사전 학습된 CNN의 피처 추출부를 고정하고, 마지막 완전 연결층만 새롭게 학습한다. ② 부분 동결‑1(Partial Freeze 1): 초기 블록(저수준 피처)만 고정하고, 중간·고수준 블록을 재학습한다. ③ 부분 동결‑2(Partial Freeze 2): 초기·중간 블록을 고정하고, 고수준 블록만 재학습한다. ④ 전체 미세조정(Fine‑tuning): 모든 레이어를 작은 학습률로 동시에 업데이트한다. ⑤ 스크래치 학습(Training from Scratch): 가중치를 무작위 초기화하고 전체를 학습한다.
학습 과정에서는 랜덤 플립, 밝기·대비 변동, 랜덤 크롭(224 × 224, Inception‑V3는 299 × 299) 등 온라인 데이터 증강을 적용하였다. 손실 함수는 클래스 불균형을 보정하기 위해 클래스별 가중치를 부여한 교차 엔트로피이며, 최적화는 Adam을 사용하였다. 평가 시에는 멀티‑크롭(36개) 평균을 이용해 최종 예측을 도출하고, AUC를 주요 지표로 삼았다. 교차 검증은 피험자 단위로 수행해, 각 폴드마다 한 마리의 데이터를 테스트 셋으로 남기고 나머지로 학습하였다.
결과는 다음과 같다. 복막 악성 구분(HP vs MP)에서는 모든 모델이 높은 성능을 보였으며, 최고 AUC는 0.971(밀도망·SE‑ResNeXt)이었다. 기관 구분(HC vs HP) 역시 AUC 0.95 이상을 기록했다. 반면 대장 악성 구분(HC vs MC)은 데이터 양과 조직 변이성 때문에 성능이 낮아, 최고 AUC는 0.731(DenseNet‑121, 부분 동결‑2) 수준이었다. 전반적으로 스크래치 학습은 모든 경우에서 가장 낮은 성능을 보였으며, 이는 작은 데이터셋에서 과적합 위험이 크기 때문이다. 오프‑더‑쉘프 전략은 일부 모델(VGG‑16)에서 괜찮은 결과를 보였지만, 대부분의 경우 부분 동결이나 전체 미세조정이 더 높은 AUC를 달성했다. 특히, 깊은 모델(DenseNet‑121, SE‑ResNeXt‑50)은 중간·고수준 레이어를 재학습하거나 전체 미세조정할 때 가장 큰 이득을 얻었다.
논문은 전이학습이 CLM과 같은 초고해상도 의료 영상에서 작은 데이터셋으로도 실용적인 분류 성능을 달성할 수 있음을 실증한다. 특히 복막 전이암 탐지는 AUC 0.97이라는 높은 정확도로, 실시간 수술 보조 시스템에 적용 가능성을 보여준다. 그러나 대장 조직의 악성 구분은 데이터 다양성 및 양이 부족해 성능이 제한적이며, 향후 더 많은 환자 데이터와 고급 데이터 증강, 혹은 도메인 특화 사전 학습 모델이 필요함을 제시한다. 또한 전이학습 전략이 모델 구조와 과제에 따라 달라지므로, 실제 임상 적용 시에는 사전 실험을 통해 최적 전략을 선정해야 한다는 실용적인 교훈을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기