임상 예측 모델 전 과정에서 누락 데이터 처리 방법의 호환성 연구
초록
본 논문은 임상 예측 모델(CPM)의 개발·검증·배포 단계에서 누락 데이터 처리 방법이 서로 어떻게 맞아야 하는지를 ‘호환성’이라는 개념으로 정의하고, 시뮬레이션과 흉부외과 데이터 실증을 통해 최적 조합을 제시한다. 결론은 배포 시 누락을 허용하지 않을 경우 다중삽입(MI)을, 허용할 경우 개발·검증 단계에서 동일한 삽입 방법을 사용해야 한다는 것이다.
상세 분석
이 연구는 CPM 전 생애주기(개발, 내부·외부 검증, 실제 배포)에서 누락 데이터 처리 전략이 일관되지 않을 경우 예측 성능이 편향될 수 있음을 지적한다. 저자들은 두 가지 원칙을 제시한다. 첫째, 개발 단계에서 선택한 누락 처리 방법은 배포 시 동일한 누락 상황 하에서 모델 성능 저하(실제 성능과 추정 성능 차이)를 최소화해야 한다. 둘째, 검증 단계에서 사용되는 방법은 배포 상황을 정확히 반영해 예측 성능 추정치를 편향 없이 제공해야 한다. 이를 ‘호환성’이라고 정의하고, 호환성을 만족하는 방법 조합을 탐색한다.
논문은 다섯 가지 누락 처리 방법을 비교한다. ① 완전 사례 분석(CCA) – 누락이 있는 사례를 제외하고 모델을 적합한다. ② 평균·최빈값 삽입 – 연속형 변수는 평균, 범주형은 최빈값으로 대체한다. ③ 단일 회귀 삽입(RI) – 다른 예측 변수를 이용해 결측값을 결정론적으로 추정한다(결과 변수는 제외). ④ 다중 삽입(MI) – 체인 방정식으로 여러 개의 완전 데이터셋을 생성하고 Rubin’s rule로 결합한다. 여기서는 결과 변수를 포함하거나 제외하는 두 버전을 고려한다. ⑤ 패턴 서브모델(PSM) – 관측된 변수 패턴별로 별도 모델을 구축한다.
시뮬레이션 설계는 MCAR, MAR, MNAR 세 가지 누락 메커니즘과 10%~40%의 누락 비율을 조합해 1,000개의 데이터셋을 생성한다. 각 데이터셋에 대해 위 방법들로 모델을 개발하고, 두 가지 배포 시나리오(‘누락 허용’ vs ‘누락 금지’)에 맞춰 검증을 수행한다. 성능 평가는 AUROC, Brier score, calibration slope 등을 사용했으며, 편향은 실제 성능과 검증에서 얻은 추정값의 차이로 정의한다.
주요 결과는 다음과 같다. (1) 배포 시 누락을 허용하지 않을 경우, 개발·검증 모두에서 MI(결과 포함)만이 편향을 최소화하고, 다른 방법들은 과대·과소 평가를 일으킨다. (2) 배포 시 누락을 허용하는 경우, 개발 단계에서 사용한 삽입 방법을 검증 단계에서도 동일하게 적용해야 한다. 예를 들어, 개발에 RI를 사용했을 때 검증에서도 동일한 RI 모델을 적용하면 편향이 거의 없으며, 반대로 MI와 RI를 혼용하면 편향이 발생한다. (3) PSM은 누락 패턴이 복잡하고 데이터가 충분히 클 때는 좋은 성능을 보이지만, 소규모 패턴에서는 과적합 위험이 크다. (4) 평균·최빈값 삽입은 가장 단순하지만, 변동성을 억제해 과신뢰 구간을 좁히고, 특히 MAR·MNAR 상황에서 큰 편향을 만든다.
실증 분석에서는 영국의 흉부외과 레지스트리 데이터를 이용해 폐절제술 후 30일 사망률을 예측하는 CPM을 구축했다. 개발 단계에서 CCA, 평균 삽입, RI, MI(결과 포함·제외), PSM을 각각 적용하고, 외부 검증에서는 동일한 방법, 교차 방법, 그리고 배포 시 ‘누락 허용’ 전략을 적용했다. 결과는 시뮬레이션과 일치했으며, 특히 배포 시 누락을 허용하도록 설계된 경우 MI와 RI를 혼용하면 AUROC가 0.03~0.07 정도 과대평가되는 반면, 동일 방법 적용 시 차이가 0.01 이하로 감소했다.
논문은 또한 실무적 제약을 논의한다. MI는 계산 비용과 구현 복잡도가 높아 배포 환경(예: 전자건강기록 시스템)에서 실시간 적용이 어려울 수 있다. 따라서 ‘누락 허용’ 배포를 목표로 할 경우, 사전에 학습된 RI 모델이나 간단한 평균 삽입을 사용하되, 개발 단계와 동일한 파라미터를 고정해 적용하는 것이 현실적이다. 반면, ‘누락 금지’ 배포에서는 사전 MI 모델을 배포 패키지에 포함시켜, 새로운 환자 데이터가 모두 관측될 때까지 기다리는 전략이 바람직하다.
결론적으로, 저자들은 CPM 연구에서 누락 데이터 처리 전략을 독립적으로 선택하지 말고, 배포 목표와 일치하도록 설계해야 한다고 주장한다. 이는 기존 문헌에서 흔히 보이는 ‘개발 단계는 MI, 검증 단계는 CCA’와 같은 비호환 조합이 실제 성능 추정에 심각한 편향을 초래함을 경고한다. 향후 연구는 다양한 임상 분야와 비정형 데이터(이미지, 텍스트)에서 호환성 원칙을 확장하고, 자동화된 파이프라인 구축을 통해 실무 적용성을 높이는 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기