대장암 생존 예측을 위한 머신러닝 알고리즘 비교 연구
초록
본 연구는 브라질 상파울루 주 병원 기반 암 등록 데이터(≈45 000명)를 활용해 여섯 가지 머신러닝 생존 분석 모델(RSF, GBSA, SSVM, XGB‑Cox, XGB‑AFT, LGBM)을 비교하였다. 하이퍼파라미터 최적화와 4가지 평가 지표(C‑Index, IPCW‑C‑Index, 시간‑의존 AUC, IBS)를 적용했으며, XGB‑AFT가 가장 높은 C‑Index(0.7618)와 IPCW(0.7532)를 기록하였다.
상세 분석
이 논문은 대규모 관찰 코호트(45 000명 이상의 대장암 환자)를 대상으로 생존 분석에 특화된 머신러닝 모델들의 성능을 체계적으로 평가한다는 점에서 의미가 크다. 먼저 데이터 전처리 단계에서 연령, 진단 시점, 치료 시작까지의 지연 등 임상·사회경제적 변수를 정제하고, 결측치와 비정상값을 제거한 뒤, 시간‑to‑event와 사망 여부를 목표 변수로 정의하였다. 변수 스케일링은 모든 모델에 일관되게 적용했으며, 범주형 변수는 계층적 관계를 보존하도록 순서형 인코딩을 사용하였다.
모델 선택 측면에서 RSF와 GBSA는 생존 데이터에 직접 대응하는 비파라메트릭·부스팅 기반 방법이며, SSVM은 서포트 벡터 머신을 생존 손실 함수와 C‑Index 최적화로 확장한 형태이다. XGB‑Cox와 XGB‑AFT는 XGBoost의 손실 함수를 각각 Cox 부분우도와 가속 실패 시간(AFT) 모델에 맞추어 변형했으며, LightGBM은 기본 회귀 형태로 적용해 가중치 방식으로 사망 사건을 강조하였다.
하이퍼파라미터 탐색은 Optuna 프레임워크를 이용해 RandomSampler, TPESampler, CmaEsSampler 세 가지 전략을 각각 150번의 시도와 10‑fold 교차검증으로 수행하였다. 특히 CmaEsSampler가 진화적 탐색을 통해 파라미터 상관관계를 효율적으로 파악함으로써 최적화 속도를 높인 점이 주목할 만하다.
성능 평가는 네 가지 지표를 동시에 사용함으로써 모델의 판별력(C‑Index, IPCW‑C‑Index, 시간‑의존 AUC)과 예측 정확도(IBS)를 균형 있게 검증했다. IPCW‑C‑Index는 검열 편향을 보정해 실제 임상 상황에 더 근접한 평가를 제공한다. 결과적으로 XGB‑AFT가 C‑Index와 IPCW‑C‑Index 모두에서 최고점을 기록했으며, GBSA와 RSF가 그 뒤를 이었다. SSVM은 전반적으로 낮은 점수를 보였으며, LightGBM과 XGB‑Cox은 생존 곡선 재구성이 어려워 IBS를 제공하지 못했다는 한계가 있었다.
해석 측면에서는 SHAP와 Permutation Importance를 활용해 변수 중요도를 정량화하였다. 주요 위험 요인으로는 진단 단계, 치료 지연 기간, 연령, 그리고 의료 서비스 유형이 반복적으로 높은 기여도를 보였으며, 이는 기존 임상 지식과 일치한다.
전체적으로 이 연구는 대규모 실세계 데이터에서 MLSA 모델을 적용할 때 하이퍼파라미터 최적화 전략, 평가 지표 선택, 그리고 모델 해석 방법이 결과에 미치는 영향을 상세히 제시한다. 특히 XGB‑AFT와 GBSA가 높은 판별력을 보이며, 실제 임상 의사결정 지원 시스템에 적용 가능성을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기