다중모달 생존 모델링과 공정성 기반 유방암 5년 위험 예측 프레임워크

본 연구는 METABRIC 코호트를 이용해 임상 변수와 전사체·복제수 변이(CNA) 데이터를 통합한 다중모달 생존 모델을 구축한다. Elastic‑net Cox 모델(CoxNet)과 XGBoost 기반 Gradient‑Boosted Survival Tree를 비교 평가했으며, 두 모델 모두 5년 전체 생존 예측에서 95% 이상 AUROC와 높은 평균 정밀도(AP)를 기록했다. 또한 연령, 에스트로겐 수용체(ER) 상태, 분자 아형, 폐경 여부 …

저자: Toktam Khatibi

다중모달 생존 모델링과 공정성 기반 유방암 5년 위험 예측 프레임워크
본 논문은 유방암 환자의 5년 전체 생존을 예측하기 위해 다중모달 데이터(임상 변수, 전사체 발현, 복제수 변이)를 통합한 머신러닝 프레임워크를 제안한다. 데이터는 METABRIC 코호트에서 확보했으며, 총 1,904명의 환자를 대상으로 전처리, 모델 학습, 평가, 공정성 검증, 재현성 확보까지 전 과정을 체계적으로 수행하였다. 1) **데이터 전처리 및 피처 엔지니어링** 임상 변수는 원-핫 인코딩 후 사용했으며, 전사체와 CNA 데이터는 각각 변동성(분산)과 결측 비율을 기준으로 필터링하였다. 필터링 기준은 최소 비결측 비율(≥0.5)와 최소 분산(≥0.01)로 설정했으며, 이후 truncated SVD를 통해 차원을 100~200 차원으로 축소했다. 다중 샘플이 동일 환자에 존재할 경우 첫 번째 샘플 혹은 평균값을 사용해 환자당 하나의 피처 벡터를 만들었다. 2) **데이터 분할 및 거버넌스** 전체 데이터를 훈련(60%), 검증(20%), 테스트(20%)로 무작위 분할했으며, 이벤트 발생 비율을 유지하기 위해 stratified split을 적용했다. 모든 무작위 과정은 고정 시드(seed=42)를 사용해 재현성을 보장했으며, 각 단계에서 사용된 인덱스와 파라미터는 파일로 저장했다. 3) **모델링** 두 가지 생존 모델을 구현했다. - **CoxNet**: Elastic‑net 정규화(Cox 부분가능도 기반)로 L1·L2 혼합 비율(α)와 전체 페널티 강도(λ)를 교차검증으로 최적화했다. 고차원 상황에서 변수 선택과 다중공선성 완화가 핵심이었다. - **XGBoost Survival**: XGBoost 라이브러리의 “cox” objective를 사용해 Gradient‑Boosted Survival Tree를 구축했다. 트리 깊이, 학습률, subsample 비율, L2 정규화 등 하이퍼파라미터를 검증 세트에서 튜닝했다. 4) **위험 추정 및 평가 지표** 모델은 위험 점수를 출력하고, Breslow 추정기를 이용해 누적 위험 함수를 계산했다. 5년(60개월) 고정 시점 위험은 1‑exp(−H(t)) 형태로 변환해 이진 분류 지표와 비교했다. 평가 지표는 다음과 같다. - **시간‑의존 AUROC**와 **Average Precision (AP)**: 5년 위험에 대한 판별력. - **Calibration**: Brier score, calibration intercept·slope, Expected Calibration Error(EC​E). - **Bootstrap CI**: 테스트 세트에서 1,000번 부트스트랩을 수행해 95% 신뢰구간을 산출. 5) **실험 결과** - CoxNet: 검증 AUROC 98.3, 테스트 AUROC 96.6; AP 90.1(검증), 80.4(테스트). - XGBoost: 검증 AUROC 98.6, 테스트 AUROC 92.5; AP 92.5(검증), 79.9(테스트). 두 모델 모두 높은 판별력을 보였지만, CoxNet이 테스트 단계에서 더 안정적인 성능을 유지했다. Brier score와 calibration slope도 모두 0.1 이하의 오차를 보여 좋은 보정성을 확인했다. 6) **공정성 진단** 연령(<50, 50‑65, >65), ER 양성/음성, PAM50 분자 아형(LumA, LumB, HER2, Basal), 폐경 여부 등 네 가지 서브그룹에 대해 AUROC, Brier, calibration slope를 별도로 계산했다. 모든 서브그룹에서 차이가 통계적으로 유의미하지 않았으며, TPR·FPR·PPV도 임계값(0.5) 기준으로 균형을 이뤘다. 최소 서브그룹 크기를 30명 이상으로 제한해 불안정한 추정을 방지했다. 7) **강건성 분석** - **부트스트랩 CI**: AUROC 95% CI는 CoxNet(95.2‑98.0), XGBoost(88.1‑96.9)로 겹치는 구간이 존재한다. - **Missing‑Modality Stress Test**: 테스트 시 전사체 혹은 CNA 피처를 30% 무작위 마스킹했을 때, CoxNet AUROC는 1~2% 감소, XGBoost는 3~5% 감소했다. 이는 두 모델이 다중모달 정보를 어느 정도 의존하지만, 단일 모달에서도 일정 수준의 성능을 유지함을 보여준다. 8) **재현성 및 투명성** 전체 파이프라인은 Python(3.9)와 주요 라이브러리(scikit‑learn, lifelines, xgboost)로 구현했으며, Dockerfile과 conda 환경 파일을 제공한다. 코드와 데이터 매니페스트는 GitHub에 공개했으며, 각 실험마다 로그와 메타데이터를 자동 기록하도록 설계했다. 9) **논의 및 한계** 본 연구는 고차원 다중모달 데이터를 효과적으로 통합하고, 모델 성능·보정·공정성을 동시에 검증한 점에서 의의가 크다. 그러나 외부 코호트(예: TCGA, SEER)에 대한 검증이 없으며, 인종·사회경제적 변수는 포함되지 않아 일반화 가능성에 제한이 있다. 또한 XGBoost의 높은 검증 AUROC가 실제 임상 의사결정에 미치는 영향에 대한 해석이 부족하고, 모델 해석(예: SHAP) 결과가 제시되지 않았다. 향후 연구에서는 외부 검증, 인과적 해석, 그리고 임상 워크플로우와의 연계 테스트가 필요하다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기