구조적 증류 기반 약한 지도 병리학 이미지 분할
초록
**
본 논문은 병리학 이미지의 약한 지도 의미분할을 위해, 대규모 비전‑언어 모델 CONCH의 형태학‑인식 특징과 멀티스케일 구조 정보를 제공하는 SegFormer를 결합한 프로토타입 학습 프레임워크를 제안한다. 텍스트‑가이드 프로토타입 초기화와 구조적 지식 증류를 통해 시멘틱 일관성과 공간적 정밀도를 동시에 확보하고, 픽셀‑레벨 라벨 없이 고품질 의사 마스크를 생성한다. BCSS‑WSSS 데이터셋에서 기존 방법들을 능가하면서도 파라미터 효율성을 유지한다.
**
상세 분석
**
ConStruct는 세 가지 핵심 모듈로 구성된다. 첫 번째는 구조적 지식 증류 단계로, 사전 학습된 SegFormer(MiT‑B1)를 교사 모델로 사용하고, 동일 이미지에 대해 고정된 CONCH(ViT‑B/16) 특징을 학생 모델로 삼는다. 두 모델의 다중 스케일 토큰 시퀀스를 L2 정규화한 뒤, 토큰‑간 유사도 행렬(affinity matrix)을 계산한다. 학생 어댑터는 이 affinity를 교사와 일치시키는 MSE 손실(L_struct)을 최소화함으로써, SegFormer가 학습한 경계‑인식 구조 정보를 CONCH 특징에 주입한다. 어댑터는 1×1 → 3×3(depth‑wise) → 1×1 구조의 경량 residual 블록으로 설계돼 전체 파라미터의 3.7%에 불과해 연산 비용을 크게 늘리지 않는다.
두 번째는 텍스트‑가이드 프로토타입 초기화이다. 각 조직 클래스마다 병리학적 설명문을 미리 정의하고, 이를 CONCH의 텍스트 인코더에 입력해 텍스트 임베딩 t_c를 얻는다. 공유 MLP(ϕ_proj)를 통해 시각적 차원 D_proto와 일치시키고 정규화한 뒤, 어댑티브 레이어를 거쳐 최종 프로토타입 P_4를 만든다. 이렇게 하면 프로토타입이 단순히 이미지 특징 클러스터링에 의존하는 것이 아니라, 도메인 지식이 반영된 의미적 초기값을 갖게 된다. 이후 정제된 학생 특징 R_4와 코사인 유사도를 계산해 클래스 활성화 맵 G_4를 얻고, 전역 평균 풀링을 통해 이미지‑레벨 라벨(y)과 BCE 손실(L_cls)로 학습한다.
세 번째는 마스크 정제 및 대조 학습이다. CAM을 기반으로 adaptive threshold(α=0.5)를 적용해 전경·배경 마스크를 만든 뒤, 각각을 CONCH 이미지 인코더에 다시 통과시켜 전경/배경 임베딩 f_fg, f_bg를 얻는다. InfoNCE 스타일의 대조 손실(ℓ_fg, ℓ_bg)을 사용해 전경 특징을 같은 클래스 프로토타입에 끌어당기고, 배경 특징은 배경 프로토타입에 끌어당기면서 서로 다른 클래스 프로토타입과는 멀어지도록 한다. 최종 손실은 L_total = λ_cls·L_cls + λ_struct·L_struct + λ_sim·L_sim 로 구성되며, λ_struct=1.5가 구조적 증류에 높은 비중을 부여한다는 점이 특징이다.
학습 단계에서는 모든 백본 파라미터를 고정하고 어댑터와 프로토타입, 대조 손실에만 gradient가 흐른다. 이는 대규모 병리학 파운데이션 모델을 그대로 활용하면서도 파라미터 효율성을 극대화한다. 추론 시에는 6가지 테스트‑타임 증강(수평 뒤집기·밝기 스케일링)을 적용해 CAM을 평균하고, 최종적으로 완전 연결 CRF를 사용해 경계 정밀도를 높인다. 실험 결과, BCSS‑WSSS 데이터셋에서 mIoU와 Dice 점수가 기존 CAM‑기반, MIL‑기반, 그리고 최신 프로토타입 기반 방법들을 모두 앞섰으며, 파라미터 수는 6.3M(전체 170M 중 3.7%)에 불과해 실용적인 배포가 가능함을 입증한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기