NucFuseRank 핵분할 데이터셋 융합과 성능 순위화 연구
초록
본 논문은 기존에 개별적으로 사용되던 H&E 염색 조직 이미지의 핵 인스턴스 분할 데이터셋을 일관된 형식으로 표준화하고, 두 최신 딥러닝 모델(CNN 기반 HoVerNeXt와 CNN‑ViT 기반 CellViT)을 이용해 각 데이터셋의 학습·평가 성능을 체계적으로 비교·순위화한다. 또한 모든 데이터셋에서 일정 수의 이미지를 추출해 만든 통합 테스트 세트(NucFuse‑test)와, 여러 데이터셋을 병합한 통합 학습 세트(NucFuse‑train)를 제안하여, 데이터 융합이 분할 정확도에 미치는 영향을 검증한다.
상세 분석
논문은 먼저 24개의 공개 핵 인스턴스 분할 데이터셋 중 10개를 선정하고, 나머지는 어노테이션 품질·목적(검출 전용, 반자동 라벨링 등) 차이로 제외하였다. 각 데이터셋은 이미지 타일 수, 핵 개수, 조직 종류, 타일 크기, 평균 핵 밀도 등 메타 정보를 정리했으며, 특히 CryoNuSeg가 256×256 패치당 평균 63.26개의 핵을 포함해 가장 높은 밀도를 보였다. 데이터 표준화 단계에서는 이미지 포맷(.tif)과 마스크 포맷(.npy)을 통일하고, 256×256 패치 단위로 비중첩 슬라이딩 윈도우를 적용했으며, 작은 이미지에는 흰색 패딩을 추가해 최소 크기를 맞추었다.
통합 테스트 세트(NucFuse‑test)는 각 데이터셋에서 14개의 타일을 무작위 혹은 기존 테스트/밸리데이션 셋에서 추출해 구성했으며, 이는 MoNuSeg의 공식 테스트 셋 크기에 맞춘 선택이다. 이렇게 함으로써 데이터셋 규모에 따른 편향을 최소화하고, 다양한 조직·스케일을 포함한 균형 잡힌 평가 환경을 제공한다.
모델 측면에서는 최신 CNN 기반 HoVerNeXt와 ViT 기반 CellViT를 선택했다. HoVerNeXt는 ConvNeXt‑V2 인코더와 인스턴스 디코더만을 사용해 속도와 정확도 사이의 좋은 균형을 달성했으며, CellViT는 사전 학습된 ViT 인코더를 활용해 복잡한 조직 구조를 효과적으로 표현한다. 두 모델 모두 핵 분할에 초점을 맞추기 위해 클래스 예측 및 거리 맵 출력은 제외하고, 인스턴스 마스크만을 출력하도록 설정하였다.
실험 1에서는 각 데이터셋을 개별 학습시켜 NucFuse‑test에 대한 성능을 측정했다. 결과는 데이터셋별 핵 밀도, 조직 다양성, 이미지 해상도 등이 모델 일반화에 큰 영향을 미침을 보여준다. 예를 들어, CryoNuSeg와 MoNuSeg는 높은 밀도와 다양한 조직으로 인해 다른 데이터셋에 비해 상대적으로 높은 평균 AP(average precision)를 기록했으며, 반면 TNBC와 DSB처럼 핵 밀도가 낮고 이미지가 작게 제한된 데이터셋은 전반적인 성능이 떨어졌다. 이러한 결과를 기반으로 논문은 데이터셋을 성능 기준으로 순위화하고, 연구자들이 특정 목적에 맞는 데이터셋을 선택할 수 있도록 가이드라인을 제공한다.
실험 2에서는 모든 데이터셋을 병합해 NucFuse‑train을 구성하고, 동일 모델들을 학습시켜 단일 데이터셋 학습 대비 성능 향상을 검증했다. 병합 학습은 특히 데이터가 부족한 소규모 데이터셋(예: TNBC, DSB)에서 눈에 띄는 개선을 보였으며, 전체적인 평균 AP가 약 3~5% 상승했다. 이는 데이터 다양성이 모델의 일반화 능력을 강화한다는 기존 연구와 일치한다. 또한, 병합 데이터셋을 사용했을 때 과적합 위험이 감소하고, 학습 안정성이 향상되는 현상이 관찰되었다.
논문은 또한 외부 검증을 위해 PanNuke와 같은 반자동 라벨링 데이터셋을 추가 실험에 포함시켰다. 반자동 데이터는 성능을 약간 낮추지만, 대규모 데이터 확보에 유용한 보조 수단으로 활용 가능함을 시사한다.
마지막으로, 모든 코드와 표준화된 데이터셋(NucFuse‑test, NucFuse‑train)을 FigShare에 공개함으로써 재현성을 보장하고, 향후 핵 분할 연구에서 데이터 선택·조합에 대한 객관적 기준을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기