데이터가 적은 간질 FLAIR MRI를 위한 공유 잠재 이미지 마스크 확산 모델
초록
SLIM‑Diff는 2채널(이미지+마스크) 입력을 하나의 공유‑보틀넥 U‑Net으로 처리하고, 손실 함수의 Lp 지수를 조절하여 데이터가 부족한 간질 FLAIR MRI에서 이미지와 병변 마스크를 동시에 합성하는 경량 확산 모델이다. 실험 결과 x₀‑예측이 가장 안정적이며, L₁.₅ 손실이 이미지 품질을, L₂ 손실이 마스크 형태를 최적화한다는 것을 보여준다.
상세 분석
SLIM‑Diff는 기존의 고용량 확산 모델이 데이터가 희소한 의료 영상에 과적합되는 문제를 해결하기 위해 설계되었다. 핵심 설계는 (1) 이미지와 병변 마스크를 2채널 텐서로 결합하고, 이를 단일 U‑Net의 공유 보틀넥을 통해 동시에 처리함으로써 해부학적 일관성과 병변 기하학적 정합성을 강제한다는 점이다. 이 구조는 파라미터 수를 26.9 M으로 제한해, 대규모 Stable Diffusion 대비 30배 가량 가벼우며, 두 개의 별도 네트워크를 사용하는 기존 공동 합성 방식보다 메모리와 연산 효율이 높다.
두 번째 혁신은 손실 함수의 Lp 노름을 가변적으로 적용한 것이다. 논문에서는 p 값을 1.5, 2.0, 2.5로 스위핑했으며, ε‑예측(노이즈), v‑예측(속도), x₀‑예측(원본) 세 가지 파라미터화 방식을 모두 동일 조건에서 비교했다. 실험 결과, x₀‑예측이 가장 낮은 KID, LPIPS, MMD‑MF 값을 기록해 이미지와 마스크 모두에서 최고의 품질을 달성했다. 이는 x₀‑예측이 데이터 분포 자체를 목표로 삼아, 데이터가 적을 때 발생하는 고분산 그래디언트 문제를 완화하기 때문이다. v‑예측은 ε‑예측과 x₀‑예측 사이의 중간 성능을 보이며, 손실 지형이 두 극단 사이를 보간한다는 점을 확인했다.
손실 지수 p 에 대한 분석에서는 L₁.₅ 손실이 이미지 재구성에서 KID와 LPIPS를 크게 낮추어, 병변 주변의 고강도 픽셀을 “아웃라이어”처럼 다루어 과도한 페널티를 방지함으로써 미세한 강도 변화를 보존한다는 점을 밝혀냈다. 반면 마스크 형태는 이진 경계가 정확히 맞춰져야 하므로 L₂ 손실이 가장 낮은 MMD‑MF 값을 보이며, 경계 정밀도가 향상된다. 이러한 결과는 손실 설계가 모델 용량과 별도로 중요한 튜닝 축임을 시사한다.
데이터 전처리 측면에서는 85명의 환자 중 FCD II형 78명만을 사용해 클래스 불균형을 완화했고, 2D axial 슬라이스(160×160)로 학습했다. z‑축 위치를 30개의 빈으로 이산화하고 병리 클래스와 결합한 조건 토큰을 사용해, 동일 슬라이스 내에서 이미지와 마스크가 일관되게 생성되도록 했다. 학습은 1000 스텝 코사인 알파 스케줄, AdamW(1e‑4)와 EMA(0.999)를 적용했으며, DDIM 샘플링(300 스텝, η=0)으로 추론했다.
통계 분석은 비모수 Kruskal‑Wallis와 Dunn 사후 검정, Friedman 및 Nemenyi 검정을 사용해 p‑값과 Cliff’s δ를 보고, 모든 주요 지표에서 x₀‑예측과 L₁.₅ (이미지)·L₂ (마스크)의 우수성을 유의하게 입증했다.
한계점으로는 2D 슬라이스 기반 생성이 z‑축 연속성을 보장하지 못한다는 점과, 기존의 MedSegFactory·brainSPADE와 같은 최신 공동 합성 모델과 직접적인 비교가 이루어지지 않았다는 점을 언급한다. 향후 연구에서는 pseudo‑3D 일관성 강화, 볼륨 기반 학습, 그리고 공개된 베이스라인과의 정량적 비교가 필요하다.
요약하면, SLIM‑Diff는 데이터가 극히 제한된 간질 FLAIR MRI 환경에서 이미지‑마스크 공동 합성을 안정적으로 수행할 수 있는 경량 확산 프레임워크이며, 파라미터화 선택과 Lp 손실 설계가 성능에 결정적인 영향을 미친다는 중요한 교훈을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기