디지털 병리학을 위한 불확실성 인식 이미지 분류 스펙트럴 정규화 신경 가우시안 프로세스
초록
본 연구는 디지털 병리 이미지 분류에 불확실성 인식 능력을 부여하기 위해 Spectral‑normalized Neural Gaussian Process(SNGP)를 구현하고, 기존의 결정론적 모델 및 Monte‑Carlo dropout과 비교하였다. 6개의 공개 데이터셋(백혈구, 아밀로이드 플라크, 대장암 조직)에서 SNGP는 동일한 정확도를 유지하면서 OOD 탐지와 캘리브레이션(ECE, Brier)에서 현저히 우수함을 보였다. 단일 전방 패스로 불확실성을 추정할 수 있어 실시간 임상 적용에 적합하다.
상세 분석
SNGP는 두 가지 핵심 메커니즘으로 기존 딥러닝 모델의 불확실성 추정을 개선한다. 첫째, 모든 은닉층에 스펙트럴 정규화(spectral normalization)를 적용해 Lipschitz 상수를 제한함으로써 입력 변동에 대한 특징 표현의 안정성을 확보한다. 이는 모델이 훈련 데이터 매니폴드에서 멀어지는 입력에 대해 급격히 변하는 출력값을 방지하고, 거리 의식(distance‑aware) 특성을 부여한다. 둘째, 마지막 전결합 층을 가우시안 프로세스(GP) 레이어로 교체하고, Random Fourier Features(RFF)를 이용해 커널 공간으로 매핑한다. RFF는 무한 차원의 커널을 저차원 근사로 변환해 계산 비용을 크게 낮추면서도, 평균과 분산을 폐쇄형으로 얻을 수 있게 한다. 결과적으로 입력이 훈련 분포와 멀어질수록 GP의 사후 분산이 커져 불확실성이 자연스럽게 증가한다.
실험 설계는 세 가지 임상 과제(백혈구 분류, 아밀로이드 플라크 검출, 대장암 조직 분류)에서 각각 두 개의 도메인(다른 실험실·스캐너·염색 조건)으로 구성된 6개의 데이터셋을 사용하였다. 각 데이터셋은 동일한 전처리(RGB 정규화, 224×224 리사이즈)와 ResNet‑18 백본을 기반으로 학습되었으며, AdamW(learning rate 1e‑3)와 다단계 스케줄러로 최적화하였다. Baseline(결정론적), MC‑Dropout(10번 전방 패스 평균)와 SNGP를 동일 조건에서 비교하였다.
성능 평가는 (1) 인‑분포(ID) 정확도와 F1, (2) Expected Calibration Error(ECE)와 Brier score를 통한 캘리브레이션, (3) 최대 소프트맥스 확률(MSP) 기반 OOD 탐지 AUROC를 사용하였다. SNGP는 ID 정확도에서 Baseline·MC‑Dropout과 차이가 없으며(≈0.98), ECE는 0.003으로 가장 낮았다. OOD AUROC은 0.971.00으로 거의 완벽에 가까웠으며, 특히 백혈구 모델이 심장 이미지와 같은 전혀 다른 도메인에서도 높은 불확실성을 보였다. 반면 MC‑Dropout은 다중 전방 패스로 인한 지연이 1.41.5 ms로 실시간 요구에 부합하지 못했다. SNGP은 0.21~0.25 ms의 지연으로 효율성을 유지한다.
한계점으로는 GP 레이어의 하이퍼파라미터(특히 RFF 차원) 선택이 성능에 민감하고, 매우 유사한 도메인(예: 동일 병리 라벨을 공유하는 아밀로이드 플라크 데이터)에서는 OOD 구분이 어려워 AUROC이 0.5에 근접한다는 점을 들 수 있다. 향후 연구에서는 도메인 적응 기법과 더 정교한 커널 설계가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기