신뢰성 높은 의료 AI를 위한 CACTUS: 결측 데이터에서도 안정적인 특징과 해석 가능성 제공
초록
본 논문은 소규모·이질적·결측이 많은 임상 데이터에 적용 가능한 CACTUS 프레임워크를 제안한다. 특징 추상화와 해석 가능한 분류기를 결합하고, 데이터 결측도가 증가해도 핵심 특징의 순위 변동을 정량화하는 ‘특징 안정성’ 지표를 도입한다. 혈뇨 코호트를 이용해 무작위 결측을 10·20·30% 수준으로 삽입한 실험에서, CACTUS는 기존 랜덤 포레스트·그라디언트 부스팅 대비 예측 성능은 동등하거나 우수하면서, 상위 10개 특징의 안정성이 현저히 높았다.
상세 분석
CACTUS는 세 가지 핵심 모듈로 구성된다. 첫째, 원시 임상 변수들을 의미론적 군집화와 차원 축소 기법을 통해 ‘특징 추상화’ 단계에서 고차원 정보를 압축한다. 이 과정에서 변수 간 상관관계를 파악하고, 중복 정보를 제거함으로써 작은 데이터셋에서도 과적합 위험을 감소시킨다. 둘째, 추상화된 특징을 입력으로 하는 ‘해석 가능한 분류기’는 주로 규칙 기반 모델(예: 결정 트리) 혹은 선형 모델에 SHAP·LIME과 같은 포스트호크 해석 기법을 결합한다. 이렇게 하면 각 예측에 대한 기여도를 명확히 제시할 수 있다. 셋째, ‘특징 안정성 분석’은 데이터에 결측을 단계적으로 삽입(MCAR 가정)한 후, 각 모델이 산출한 특징 중요도 순위의 평균 상대 변화와 표준편차를 계산한다. 평균 상대 변화가 작고 표준편차가 낮을수록 모델이 결측에 강인함을 의미한다. 논문에서는 10개 상위 특징에 대해 이 지표를 적용했으며, CACTUS는 전체, 남성, 여성 하위 집단 모두에서 평균 변화가 0.05 이하, 표준편차도 최소 수준을 기록했다.
실험 데이터는 568명의 혈뇨 환자를 대상으로 한 블라더암 유무 분류이며, 혈액·소변 바이오마커 30여 종과 인구통계학적 변수들을 포함한다. 결측 시뮬레이션은 무작위로 10·20·30%를 제거했으며, 각 수준에서 5‑fold 교차 검증을 수행했다. 성능 평가는 AUC, 정확도, F1-score를 사용했으며, CACTUS는 AUC 0.860.89로 기존 랜덤 포레스트(0.840.87)와 비슷하거나 약간 우수했다. 그러나 특징 안정성 면에서는 랜덤 포레스트가 30% 결측 시 평균 변화 0.12, 표준편차 0.07을 보인 반면, CACTUS는 각각 0.04·0.02 수준으로 현저히 낮았다. 또한 성별별 분석에서 CACTUS는 남·여 각각의 상위 특징 집합이 거의 동일하게 유지되는 반면, CatBoost·LGBM은 여성 데이터에서 급격히 변동했다.
한계점으로는 결측이 MCAR(완전 무작위)라는 가정에 의존한다는 점이다. 실제 임상에서는 MAR(조건부 무작위) 혹은 MNAR(무작위가 아닌 결측) 상황이 흔히 발생한다. 또한 특징 추상화 단계에서 군집화 기준이 사전에 정의된 도메인 지식에 크게 좌우되므로, 다른 질병군에 적용할 경우 재조정이 필요하다. 향후 연구에서는 다양한 결측 메커니즘을 모사하고, 자동화된 군집화 파라미터 최적화 기법을 도입해 범용성을 높일 여지가 있다.
전반적으로 CACTUS는 ‘예측 정확도 + 특징 안정성’이라는 두 축을 동시에 만족시키는 프레임워크로, 고위험 의료 의사결정에서 모델에 대한 신뢰를 구축하는 데 실질적인 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기