MedSteer 훈련 없이 활성화 조정으로 구현하는 내시경 이미지 반사실성 합성
초록
MedSteer는 확산 트랜스포머의 교차‑Attention 레이어에서 추출한 병리 벡터를 이용해, 동일한 노이즈 시드로 생성된 두 이미지 사이에서 특정 병리만을 교체하는 훈련‑프리 활성화 스티어링 기법이다. 구조는 그대로 유지하면서 개념만을 전환함으로써 높은 개념 전환율과 뛰어난 배경 보존을 달성하고, 합성 데이터를 활용한 폴립 검출 성능을 크게 향상시킨다.
상세 분석
본 논문은 의료 영상, 특히 위·대장 내시경 이미지에서 데이터 증강을 위한 기존 확산 모델 기반 방법들의 근본적인 한계를 짚고 있다. 텍스트 프롬프트를 바꾸는 재프롬프트 방식은 전체 생성 궤적을 재시작해 해부학적 구조, 텍스처, 배경까지 모두 변형시키며, DDIM 기반 역전(Inversion) 편집은 복원 오류로 인해 구조적 드리프트가 발생한다. 이러한 문제를 해결하기 위해 MedSteer는 “훈련‑프리” 접근법을 제안한다. 핵심 아이디어는 두 개의 대조 프롬프트(예: “dyed lifted polyp” vs. “polyp”)를 동일한 노이즈 시드로 여러 번 실행해 교차‑Attention 출력 hₗ,ₜ를 평균하고, 양·음성 프롬프트 간 차이를 정규화해 단위 병리 벡터 vₗ,ₜ를 얻는 것이다. 이 벡터는 레이어와 타임스텝별로 의미론적 차이를 포착한다.
생성 단계에서는 동일한 시드와 동일한 양성 프롬프트를 사용해 두 개의 이미지 흐름을 동시에 진행한다. 한 흐름은 그대로 두고(Unsteered), 다른 흐름에서는 각 레이어·타임스텝마다 SSPS(Spatially Selective Pathology Steering)를 적용한다. SSPS는 토큰별 코사인 유사도 점수 σₗ,ₜ = max(⟨hₗ,ₜ, vₗ,ₜ⟩, 0) 를 계산해, 양수 정렬 토큰에만 α 배율로 병리 벡터를 빼는 방식으로 활성화를 수정한다. 이때 orthogonal 성분(해부학, 텍스처, 시점)은 그대로 보존되므로, 두 이미지 사이의 차이는 오직 스티어링된 병리만을 반영한다.
실험은 Kvasir v3와 HyperKvasir 데이터셋을 활용해 세 가지 주요 평가를 수행한다. 첫째, 개념 전환율(Flip Rate)과 배경 보존 지표(Bg‑LPIPS, Bg‑SSIM, Bg‑PSNR)에서 MedSteer는 Polyp↔Normal, UC↔Normal, Esophagitis↔Normal 등 3가지 임상 쌍에 대해 각각 0.800, 0.925, 0.950의 높은 전환율을 기록하고, 배경 손실을 최소화한다. 둘째, 색소(Indigo carmine) 제거 실험에서 MedSteer는 75%의 색소 제거율을 달성해, 기존 PnP(20%)와 h‑Edit(10%)에 비해 월등히 우수했다. 셋째, 합성된 반사실성 쌍을 데이터 증강에 활용했을 때, ViT 기반 폴립 검출 모델의 AUC가 0.9755로 크게 상승했으며, 이는 동일한 양의 재프롬프트 데이터(0.9083)보다 현저히 높은 성능이다.
추가적인 Ablation 연구에서는 레이어 윈도우(8–16)와 스티어링 강도 α가 성능에 미치는 영향을 분석했다. 레이어 8–16이 의미론 형성 구간임을 확인했으며, α=2.5에서 최적의 전환율(80%)을 보였고, α를 과도하게 높이면(α=3.0) 오히려 성능이 감소한다. 또한, 토큰‑레벨 σ 점수는 초기 단계에서는 넓은 영역에 걸쳐 활성화가 퍼지고, 후반부로 갈수록 병변 부위에 집중되는 시각적 해석 가능성을 제공한다.
이러한 결과는 MedSteer가 “구조는 그대로, 병리만 바꾸는” 진정한 반사실성(counterfactual) 생성 방법임을 입증한다. 훈련 없이도 기존 확산 트랜스포머를 그대로 활용할 수 있어, 라벨이 부족한 의료 영상 분야에 즉시 적용 가능하며, 임상적 의미를 갖는 데이터 증강을 통해 검출·진단 모델의 일반화 능력을 크게 향상시킬 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기