컨프라믹 예측 기반 불확실성 인식 방사선 보고 자동작성 프레임워크 CONRep
초록
CONRep은 Vision‑Language Model이 생성한 흉부 X‑ray 보고서에 대해 모델‑독립적인 통계적 보장을 제공하는 컨포멀 예측을 적용한다. 라벨 수준에서는 이진 병변 존재 여부를, 문장 수준에서는 자유 텍스트 인상(impression)의 이미지‑텍스트 정렬 점수를 활용해 불확실성을 정량화한다. ChestX‑Det10과 Open‑I 데이터셋에서 MedGemma와 BiomedCLIP 두 VLM을 시험했으며, ‘확신 있음’으로 분류된 결과는 ‘불확신’보다 방사선전문의와의 일치도가 현저히 높았다.
상세 분석
본 논문은 자동 방사선 보고서 초안 작성(ARRD) 시스템이 임상 현장에서 신뢰를 얻기 위해서는 예측 불확실성에 대한 정량적 근거가 필수적이라는 전제에서 출발한다. 기존 VLM 기반 ARRD는 성능 향상에 집중했으나, 대부분이 확률값이나 히트맵 등 모델 내부에 의존하는 휴리스틱한 신뢰도 지표에 머물러 있었다. CONRep은 이러한 한계를 극복하기 위해 두 가지 핵심 설계를 도입한다. 첫째, ‘모델‑agnostic’하고 ‘post‑hoc’인 컨포멀 예측(Conformal Prediction, CP)을 활용한다. CP는 캘리브레이션 데이터에서 비순응도(non‑conformity score)를 계산하고, 사전 정의된 오류 허용 수준 α에 따라 임계값을 설정함으로써, 테스트 시에 생성되는 예측 집합이 실제 라벨을 포함할 확률을 최소 (1‑α) 로 보장한다. 둘째, 라벨 수준과 문장 수준이라는 두 단계에서 각각 다른 비순응도 정의를 적용한다. 라벨 수준에서는 MedGemma의 토큰‑레벨 소프트맥스 확률을 정규화해 이진 확률을 얻고, BiomedCLIP에서는 “with condition”과 “without condition” 프롬프트 간 코사인 유사도 차이를 시그모이드 변환해 확률화한다. 이후 캘리브레이션 셋에서 양성·음성 케이스별 비순응도를 정렬하고, α‑quantile을 임계값으로 삼아 테스트 셋에 ‘certain’, ‘uncertain’ 혹은 ‘highly uncertain’ 라벨을 부여한다. 문장 수준에서는 VLM이 생성한 인상 텍스트와 원본 이미지 사이의 코사인 유사도를 최소‑최대 정규화해 의사‑확률로 전환하고, 동일한 CP 절차를 적용한다. 실험 결과는 두 VLM 모두에서 ‘certain’ 서브셋이 전체 대비 AUROC, AUPRC, 정확도, 민감도·특이도 등 거의 모든 지표에서 유의하게 우수함을 보여준다. 특히, MedGemma는 섬유증, 결절, 기흉 등 어려운 병변에서도 확신 있는 예측이 높은 성능을 유지했으며, BiomedCLIP은 대조적 임베딩 기반 접근임에도 라벨 수준에서 강력한 커버리지와 성능 차이를 입증했다. 통계적 검증을 위해 Shapiro‑Wilk, Welch‑t, Mann‑Whitney U, Pearson·Spearman 상관 분석을 수행했으며, α=0.05, 0.1, 0.2 등 다양한 허용오차에서 일관된 결과를 얻었다. 이러한 설계는 기존 VLM을 그대로 재사용하면서도 불확실성에 대한 명시적, 해석 가능한 정보를 제공함으로써, 임상 의사가 자동 생성 보고서를 신뢰하거나 추가 검토가 필요한 경우를 자동으로 구분할 수 있게 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기