스트라이드넷 공정성을 고려한 흉부 엑스레이 진단을 위한 분리 표현 학습
초록
Stride‑Net은 패치 수준의 마스크와 적대적 학습, 그리고 바이오BERT 기반 라벨 임베딩을 이용한 그룹 최적 수송 손실을 결합해, 질병 예측은 정확히 하면서 인종·성별 등 민감 속성에 대한 편향을 최소화한다. MIMIC‑CXR와 CheXpert에서 기존 ERM, UBAIA, CheXclusion 대비 정확도와 공정성 지표(PQD, EOM) 모두 향상된 결과를 보였다.
상세 분석
본 논문은 흉부 엑스레이 자동 진단 모델이 인종·성별 등 민감 속성에 의해 성능 격차를 보이는 문제를 해결하고자, 표현 학습 단계에서 공정성을 내재화하는 새로운 프레임워크인 Stride‑Net을 제안한다. 핵심 아이디어는 세 가지이다. 첫째, Vision Transformer(ViT) 기반의 패치 임베딩을 추출한 뒤, 학습 가능한 “stride mask” Mθ를 통해 질병 라벨과 높은 의미적 정렬을 보이는 패치만을 선택한다. 이 과정은 전역적인 인구통계적 신호가 섞여 있는 배경을 배제하고, 질병 관련 국소 영역에 집중하도록 강제한다. 둘째, 라벨 임베딩은 사전 학습된 BioBERT를 이용해 생성하고, 이미지 패치와 라벨 임베딩 사이의 정렬을 그룹‑Optimal Transport(GOT) 손실로 최적화한다. GOT은 두 부분으로 구성되는데, 첫 번째는 패치와 라벨 사이의 전송 비용을 최소화해 의미적 일치를 촉진하고, 두 번째는 민감 속성 그룹 간의 분포 차이를 정규화해 공정성을 강화한다. 셋째, 민감 속성 예측기를 두 개 두어 하나는 일반적인 교차 엔트로피 손실(Ls)로 속성을 예측하도록 학습하고, 다른 하나는 Gradient Reversal Layer를 통해 역전파하면서 속성 예측을 방해한다(Lconf). 이렇게 하면 특징 추출기 φ는 질병 예측에는 유용하지만 민감 속성 정보를 최소화하도록 압박받는다. 전체 손실은 Ltotal = Lc + α·LGOT + β·Ls – γ·Lconf 형태로, 정확도, 의미 정렬, 공정성 간의 트레이드오프를 조절한다. 실험에서는 ResNet‑18과 ViT‑B 두 가지 백본에 Stride‑Net을 적용했으며, MIMIC‑CXR와 CheXpert 두 대규모 데이터셋에서 인종 및 인종‑성별 교차 그룹을 대상으로 평가했다. 평가 지표는 전체 정확도와 함께 Predictive Quality Disparity(PQD)와 Equality of Opportunity Measure(EOM)를 사용했는데, Stride‑Net은 모든 경우에서 기존 방법보다 높은 PQD와 EOM을 기록하면서도 평균 정확도는 0.8~1.6%p 상승했다. 특히 “No Finding” 라벨에서의 언더다이애그노시스 감소가 두드러졌다. 이러한 결과는 패치‑레벨 선택과 의미 정렬, 적대적 디스엔탱글링이 공정성을 손상시키지 않으면서도 모델 성능을 유지·향상시킬 수 있음을 입증한다. 논문은 또한 코드 공개를 통해 재현성을 확보하고, 향후 다른 의료 영상 도메인에의 확장 가능성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기