MambaMIL 플러스 초고해상도 병리 슬라이드 장기 공간 패턴 모델링
초록
**
본 논문은 초고해상도 병리 슬라이드(WSI)를 다루는 다중 인스턴스 학습(MIL) 프레임워크에 Mamba 기반의 장기 의존성 모델을 적용하면서, 공간 연속성을 보존하고 메모리 소멸을 완화하는 세 가지 핵심 모듈(오버래핑 스캔, 선택적 스트라이프 위치 인코더, 컨텍스추얼 토큰 선택)을 제안한다. 20개의 진단·분자·생존 예측 벤치마크와 세 종류의 피처 추출기(ResNet‑50, PLIP, CONCH)에서 기존 최첨단 방법들을 능가하는 성능을 입증한다.
**
상세 분석
**
MambaMIL+는 기존 MIL 접근법이 갖는 두 가지 근본적인 한계, 즉 (1) 패치 간 공간 관계를 무시한 i.i.d. 가정과 (2) 초장기 시퀀스에서 상태공간 모델(SSM)인 Mamba가 보이는 지수적 메모리 감소 현상을 해결한다. 첫 번째 문제를 위해 저자들은 ‘오버래핑 스캔(overlapping scanning)’을 도입한다. 이는 패치를 겹치게 추출해 인접 패치 간에 공유되는 픽셀 정보를 유지함으로써 시퀀스 재배열 단계에서 공간 연속성을 내재화한다. 겹침 정도는 실험적으로 최적화되며, 결과적으로 토큰 순서가 공간적 인접성을 반영하도록 만든다.
두 번째 문제인 메모리 소멸을 완화하기 위해 ‘선택적 스트라이프 위치 인코더(S2PE)’와 ‘컨텍스추얼 토큰 선택(CTS)’ 두 메커니즘을 설계했다. S2PE는 2‑D 스캔을 그대로 1‑D 토큰 시퀀스로 변환하면서, 고정된 스캔 순서에 의해 발생하는 편향을 완화한다. 구체적으로, 스트라이프(가로·세로) 단위로 위치 정보를 선택적으로 부여하고, 중복되는 위치 토큰을 억제해 공간적 다양성을 보존한다. CTS는 감독 신호(예: 슬라이드 레벨 라벨)를 활용해 중요한 토큰을 동적으로 선택하고, 선택된 토큰들의 은닉 상태를 장기 메모리 버퍼에 저장한다. 이렇게 하면 초기 토큰들의 기여도가 지수적으로 소멸되는 현상을 방지하고, 중요한 병변 영역의 정보를 장기간 유지할 수 있다.
모델 아키텍처는 SSD(state‑space duality) 기반 Mamba 블록에 위 세 모듈을 순차적으로 삽입한 형태다. SSD는 전이 행렬 A를 스칼라로 단순화해 연산량을 크게 줄이면서도, 선택적 전파 메커니즘을 통해 필요한 토큰만을 효율적으로 전달한다. 실험에서는 토큰 수가 수만 개에 달하는 초고해상도 WSI에서도 메모리 사용량이 선형적으로 증가함을 확인했으며, 기존 Transformer‑기반 MIL이 겪는 O(N²) 비용 문제를 완전히 회피한다.
성능 평가에서는 20개의 공개 데이터셋(진단 분류, 유전자 변이 예측, 생존 분석)을 대상으로 ResNet‑50, PLIP, CONCH 세 가지 피처 추출기와 결합해 비교했다. 평균 AUROC, AUPRC, C‑index 등 모든 지표에서 기존 S4MIL, TransMIL, CLAM 등 최신 MIL 모델을 앞섰으며, 특히 공간적 연속성을 활용한 오버래핑 스캔이 없는 경우 대비 2~5%p의 성능 향상이 관찰되었다. Ablation study는 각 모듈의 기여도를 정량화했으며, CTS가 없을 경우 메모리 소멸 현상이 재현돼 장기 의존성 학습이 급격히 저하되는 것을 확인했다.
전반적으로 MambaMIL+는 (1) 공간적 연속성을 토큰 시퀀스에 자연스럽게 통합, (2) 선택적 위치 인코딩으로 스캔 편향 최소화, (3) 감독 기반 토큰 선택으로 메모리 소멸 방지라는 세 축을 통해 초고해상도 병리 이미지의 장기 컨텍스트를 효율적으로 학습한다는 점에서 기존 MIL 패러다임을 크게 확장한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기