계층적 합성 확산을 통한 공정한 의료 이미지 생성
CompDiff는 인구통계 조건을 계층적으로 분해하는 전용 컨디셔너(HCN)를 도입해, 희소하거나 학습에 전혀 등장하지 않은 인구통계 교차군에 대해 조합적 일반화를 가능하게 한다. MIMIC‑CXR와 FairGenMed 데이터셋에서 기존 파인튜닝 및 FairDiffusion 대비 FID, ES‑FID, 그리고 다운스트림 분류기 성능에서 전반적으로 우수함을 보이며, 구조적 인구통계 인코딩이 공정한 의료 이미지 합성에 핵심적임을 입증한다.
저자: Mahmoud Ibrahim, Bart Elen, Chang Sun
본 논문은 의료 영상 합성에서 인구통계적 불균형이 생성 모델 자체의 품질 편향으로 이어지는 “불균형 생성기 문제”를 제기한다. 기존 접근법은 손실 가중치나 데이터 재샘플링 등 최적화 단계에서 불균형을 보정하려 했지만, 학습 데이터에 전혀 존재하지 않는 교차군에 대해서는 근본적인 해결이 불가능했다. 이를 극복하기 위해 저자들은 CompDiff라는 새로운 프레임워크를 설계했으며, 핵심 구성요소는 Hierarchical Conditioner Network(HCN)이다. HCN은 연령, 성별, 인종이라는 세 가지 인구통계 속성을 각각 256‑차원 임베딩으로 변환하고, 각 속성 쌍에 대해 별도 MLP를 적용해 비선형 상호작용을 학습한다. 이렇게 얻어진 pairwise 표현을 다시 하나의 MLP에 통합해 최종 인구통계 토큰 h_demo를 만든다. h_demo는 평균·분산 파라미터(µ,σ)로 정규분포화된 뒤, cross‑attention 컨텍스트에 삽입되어 diffusion UNet에 공급된다. 이 과정에서 (1) compositional consistency loss를 통해 h_demo가 단순 합이 아닌 실제 상호작용을 반영하도록 유도하고, (2) auxiliary classification loss를 토큰 c에 직접 적용해 인구통계 정보가 손실되지 않도록 보강한다. 전체 파라미터 증가량은 0.19%에 불과해 기존 Stable Diffusion 2.1과 거의 동일한 효율성을 유지한다.
실험은 두 개의 의료 데이터셋, MIMIC‑CXR(흉부 X‑ray)와 FairGenMed(안저 이미지)에서 수행되었다. 각 데이터셋은 연령, 성별, 인종 등 다중 보호 속성을 포함하고 있으며, 일부 교차군은 훈련 데이터에 매우 적게 혹은 전혀 존재하지 않는다. 평가 지표는 이미지 품질(FID, FID‑RadImageNet, MS‑SSIM), 텍스트‑이미지 정합도, 공정성(ES‑FID), 그리고 다운스트림 분류기 성능(AUROC, ES‑AUROC, underdiagnosis rate, equalized odds)이다. CompDiff는 모든 지표에서 기존 파인튜닝 베이스라인과 FairDiffusion을 능가했다. 특히 FID는 흉부 X‑ray에서 64.3, 안저 이미지에서 54.6으로 가장 낮았으며, ES‑FID 역시 모든 보호 속성에서 최소값을 기록했다. 희소 교차군에 대한 성능도 크게 개선되어, 훈련에 전혀 포함되지 않은 교차군에 대해 최대 21%의 FID 감소를 달성했다. 이는 HCN이 단일 속성 및 pairwise 임베딩을 조합해 새로운 교차군을 효과적으로 생성할 수 있음을 증명한다.
다운스트림 실험에서는 합성 데이터로 학습한 질병 분류기가 실제 테스트셋에서 AUROC를 0.72→0.69(흉부) 및 0.78→0.75(안저)로 향상시켰으며, 공정성 지표인 underdiagnosis rate과 equalized odds 차이도 각각 0.46→0.40, 0.15→0.12로 감소했다. 이는 고품질·공정한 합성 데이터가 실제 임상 AI 모델의 성능 및 편향 완화에 직접적인 영향을 미친다는 실증적 증거다.
Ablation 연구에서는 (i) 인구통계를 텍스트에 직접 삽입한 경우 성별·인종 정확도는 높지만 FID가 크게 악화됨을 확인했고, (ii) HCN 없이 auxiliary loss를 µ에 적용하면 토큰 정보 손실이 발생함을 보여, 제안된 구조가 성능·공정성 사이의 최적 트레이드오프를 제공함을 입증했다. 최종적으로 저자들은 인구통계 조건을 별도 계층적 네트워크로 분해·조합하는 설계가 의료 이미지 합성에서 공정성을 확보하는 핵심적인 설계 선택임을 강조한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기