기초 모델 기반 이중합의 일관성 학습으로 반자동 태아 심장 초음파 분할 및 진단
초록
본 논문은 제한된 라벨 데이터와 풍부한 비라벨 데이터를 동시에 활용하기 위해, 사전학습된 초음파 기반 파운데이션 모델 EchoCare와 경량 U‑Net을 이중합의 일관성 학습(Dual Agreement Consistency Learning) 프레임워크에 결합한다. 교차‑지도(co‑training)와 EMA 기반 교사‑학생 모델, 그리고 픽셀‑수준·클래스‑수준 일관성 손실을 통해 세그멘테이션과 CHD(선천성 심장질환) 분류를 동시에 학습한다. FETUS 2026 챌린지 데이터셋에서 EchoCare‑ResUNet 조합이 Dice 59.66, NSD 42.82를 기록하며, 백본 선택에 크게 의존하지 않는 범용성을 보였다.
상세 분석
본 연구는 초음파 영상에서 태아 심장을 자동으로 분석하기 위한 반감독 학습 전략을 제시한다. 핵심 아이디어는 서로 다른 inductive bias를 가진 두 모델, 즉 대규모 데이터로 사전학습된 트랜스포머 기반 파운데이션 모델 EchoCare와 전통적인 컨볼루션 기반 U‑Net을 동시에 학습시키는 것이다. 두 모델은 동일한 비라벨 이미지에 대해 독립적으로 예측을 수행하고, 서로의 예측을 ‘pseudo‑label’로 변환해 교차‑지도(cross‑supervision) 손실 L_cps에 활용한다. 이 과정에서 segmentation에 대해서는 cross‑entropy와 Dice 손실을, 다중 라벨 CHD 분류에 대해서는 binary cross‑entropy 손실을 적용한다.
또한, EMA(Exponential Moving Average) 기반 교사 모델을 도입해 U‑Net에 대해 interpolation consistency learning(L_ict)을 적용한다. 두 비라벨 이미지 X_i, X_j를 mixup(σ=0.5)으로 섞어 만든 ˆX에 대해 학생 모델의 예측이 교사 모델의 예측을 선형 보간한 값과 일치하도록 L2‑norm 손실을 최소화한다. 이는 입력 공간에서의 부드러운 변화를 강제해 일반화 능력을 향상시킨다.
가장 독창적인 부분은 Dual‑Agreement Consistency(L_dac)이다. 여기서는 두 모델의 픽셀‑수준 확률 분포 p(u), q(u) 사이의 KL‑divergence를 최소화하는 정렬 손실(L_align)과, 두 분포의 엔트로피 차이를 이용해 불확실성을 감소시키는 신뢰도 손실(L_conf)을 동시에 최적화한다. 수식적으로 L_dac = E_{u}
댓글 및 학술 토론
Loading comments...
의견 남기기