HPV 진단을 위한 해석 가능한 개념 발견 프레임워크 CLEAR‑HPV
초록
CLEAR‑HPV는 기존의 attention 기반 다중 인스턴스 학습(MIL) 모델에서 추출한 잠재 공간을 주의 가중치로 재구성해, HPV 양성·음성 종양을 구분하는 조직학적 개념(각질화, 기저형, 기질)을 자동으로 발견한다. 10개의 해석 가능한 개념으로 차원 축소된 개념‑분수 벡터는 원래 MIL 임베딩의 예측 성능을 유지하면서 시각적 개념 지도와 슬라이드 수준의 정량적 설명을 제공한다. TCGA‑HNSCC, TCGA‑CESC, CPTAC‑HNSCC 등 세 데이터셋에 걸쳐 일관된 성능과 일반화를 입증하였다.
상세 분석
본 연구는 HPV 연관 암의 병리학적 진단을 위해, 고차원 MIL 임베딩을 인간이 이해 가능한 형태로 변환하는 CLEAR‑HPV 프레임워크를 제안한다. 핵심 아이디어는 MIL 모델이 학습 과정에서 생성하는 타일‑레벨 임베딩(h‑space)에 attention 점수를 곱해, 진단에 중요한 영역을 강조한 후 클러스터링을 수행한다는 것이다. 이를 통해 사전 라벨이 전혀 없는 상태에서도 10개의 개념을 자동 추출했으며, 각 개념은 각질화, 기저형, stromal 등 HPV와 연관된 조직학적 형태와 높은 연관성을 보였다.
개념 발견 단계에서는 (1) raw‑h와 (2) attention‑weighted‑h 두 가지 변형을 비교했으며, 후자가 개념의 일관성과 예측 유지 측면에서 우수했다. 클러스터링 알고리즘은 K‑means를 기반으로 elbow 방법으로 K=10을 선정했으며, 각 슬라이드는 개념‑분수 벡터(10‑dim)로 요약된다. 이 벡터는 별도의 파라미터 없이 단순 선형 분류기에 투입돼 원본 MIL 모델의 AUC(0.86)와 비슷한 수준(AUC≈0.84)을 달성했다.
다중 코호트 실험에서는 TCGA‑HNSCC(HPV‑+ 38, HPV‑‑ 64), TCGA‑CESC(HPV‑+ 138, HPV‑‑ 8), CPTAC‑HNSCC(전부 HPV‑‑)를 사용해 일반화 능력을 검증하였다. 특히, 외부 코호트인 CPTAC‑HNSCC에서 재학습 없이 zero‑shot 평가를 수행했음에도 정확도 0.70±0.12를 유지, 스캐너·염색 변동에도 견고함을 보였다.
비교 대상으로 heatmap 기반 그룹화, encoder‑feature 클러스터링, Dirichlet 기반 개념 모델을 적용했지만, CLEAR‑HPV가 개념‑분수 벡터의 예측 성능(AU C, ACC) 및 시각적 일관성 측면에서 전반적으로 우수했다. 또한, 개념‑분수 벡터는 1536 차원의 원본 임베딩 대비 150배 이상 차원을 축소하면서도 중요한 진단 정보를 보존한다는 점에서 임상 적용 가능성을 높인다.
한계점으로는 개념 수 K를 사전에 정해야 하는 점, 클러스터링 결과가 초기화에 민감할 수 있다는 점, 그리고 현재는 HPV 상태만을 대상으로 했으므로 다른 분자 표지자에 대한 확장 검증이 필요하다. 향후에는 멀티‑라벨 상황, 다른 암 유형, 그리고 병리학자와의 협업을 통한 개념 검증을 통해 프레임워크의 범용성을 강화할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기