지식 강화 병리학 비전언어 모델 KEEP
초록
KEEP는 11 천여 개 질병과 13 만 여개의 속성을 담은 질병 지식 그래프를 활용해 수백만 장의 병리 이미지‑텍스트 쌍을 14 3 천 개의 의미적 그룹으로 재구성하고, 계층적 의미 공간에서 시각·언어 표현을 정렬하는 사전학습 방식을 제안한다. 18개 공개 벤치마크와 4개 희귀암 데이터셋에서 기존 비전‑언어 모델을 지속적으로 능가하며, 특히 희귀 아형 진단에서 큰 성능 향상을 보인다.
상세 분석
KEEP는 기존 병리학 비전‑언어 모델이 데이터 중심으로만 학습되는 한계를 극복하기 위해 ‘지식‑기반 사전학습’이라는 새로운 패러다임을 제시한다. 첫 단계에서 저자들은 Disease Ontology와 UMLS를 통합해 11 454개의 질병 엔티티와 139 143개의 속성(동의어, 정의, 상위‑하위 관계)을 포함하는 대규모 지식 그래프(KG)를 구축하였다. 이 KG는 질병 간 계층적 관계를 명시적으로 제공함으로써, 이미지‑텍스트 쌍을 단순히 매칭하는 것이 아니라 의미론적 그룹으로 재구성할 수 있는 기반이 된다.
데이터 정제 과정에서는 OpenPath와 Quilt1M 등 공개 이미지‑텍스트 데이터의 노이즈를 제거하기 위해 YOLOv8 기반 객체 탐지기로 불필요한 배경을 필터링하고, 텍스트에서 UMLS 엔티티를 추출해 KG와 매핑한다. 이후 유사도 행렬과 임계값(0.95)을 활용해 동일 질병에 해당하는 이미지와 캡션을 클러스터링, 총 143 000개의 ‘semantic group’을 형성한다. 이러한 그룹은 KG의 하위‑상위 관계를 그대로 반영하므로, 모델이 학습 중에 질병 간 의미적 거리를 인식하도록 유도한다.
텍스트 인코더는 BERT 기반으로 사전학습되어 KG의 구조를 메트릭 학습을 통해 임베딩 공간에 내재화한다. 시각‑언어 사전학습 단계에서는 이미지와 텍스트에 랜덤 크롭, 드롭아웃, 템플릿 기반 패러프레이징 등 다양한 데이터 증강을 적용하고, ‘positive mining’, ‘hardest negative’, ‘false negative elimination’ 전략을 도입해 부정 샘플의 영향을 최소화한다. 이때 시각 인코더는 ViT 구조를 사용하며, 텍스트와 이미지 임베딩을 다중 레벨(노드‑레벨, 그룹‑레벨)에서 정렬함으로써 계층적 의미 공간을 공동으로 학습한다.
KEEP의 핵심 혁신은 (1) 질병 지식을 명시적으로 모델에 주입함으로써 시각‑언어 정렬을 ‘의미적’으로 강화, (2) 노이즈가 많은 공개 데이터셋을 KG 기반 클러스터링으로 정제·구조화, (3) 다중 레벨 정렬을 통해 희귀 아형과 같이 라벨이 부족한 상황에서도 제로샷 성능을 크게 끌어올린다. 실험 결과, 18개 공개 벤치마크(14 000+ WSIs)와 4개 내부 희귀암 데이터셋(926 사례)에서 평균 민감도 0.898(특이도 0.95)·균형 정확도 8.5%p 상승 등 기존 최첨단 모델(PLIP, QuiltNet, CONCH 등)을 일관적으로 앞섰다. 특히 희귀 뇌암 아형에서는 서브타이핑 정확도가 30%p 이상 개선되었다.
추가적인 Ablation 연구에서는 (i) KG 없이 학습한 버전 대비 세분화와 서브타이핑 지표가 각각 7.3%·7.2% 향상되었으며, (ii) 가장 중요한 요소가 ‘semantic group 정렬’임을 확인했다. 또한, KEEP은 슬라이드‑레벨 진단 파이프라인에 쉽게 통합될 수 있어, 타일‑레벨 임베딩과 텍스트 프롬프트(
댓글 및 학술 토론
Loading comments...
의견 남기기