질병 위험 예측 도구의 보정 평가 E O 비율과 검열 보정 방법 비교
초록
본 논문은 질병 위험 예측 모델의 보정을 평가할 때 흔히 사용하는 기대/관측(E/O) 비율이 검열(censoring) 때문에 전체 모집단에 대해 직접 계산될 수 없음을 지적한다. 이를 해결하기 위해 네 가지 추정 방법을 제시하고, 이론적 분석과 시뮬레이션을 통해 두 가지 일반적 방법이 편향을 일으키는 것을 보여준다. 마지막으로 E3N‑EPIC 코호트에서 유방암 위험 모델을 적용해 실제 데이터에 대한 결과를 제시한다.
상세 분석
보정(calibration)은 예측된 위험과 실제 발생률이 일치하는지를 판단하는 핵심 지표이며, 전통적으로 E/O 비율이 사용된다. 그러나 장기 추적 연구에서는 일부 피험자가 중도 탈락하거나 관찰이 종료되기 전에 사건이 발생하지 않아 관측된 사건 수(O)가 전체 모집단을 대표하지 못한다. 논문은 이 문제를 해결하기 위해 네 가지 추정법을 제시한다. 첫 번째는 “완전 관측법”(complete‑case)으로, 탈락자를 제외하고 단순히 기대 사건 수(E)와 관측 사건 수(O)를 비교한다. 두 번째는 Kaplan‑Meier 생존곡선을 이용해 누적 발생률을 추정하고 이를 Ô 로 사용하는 방법이다. 세 번째는 사건 발생률을 시간당 위험도(incidence density)로 환산해 전체 추적 기간 동안의 기대 사건 수를 계산하는 방식이며, 네 번째는 각 피험자에 대한 탈락 확률을 역으로 가중치(inverse probability weighting, IPW)하여 편향을 보정한다. 이론적으로 첫 번째와 두 번째 방법은 탈락 메커니즘이 비무작위일 경우 E/O 비율을 과소 혹은 과대 추정한다는 증명을 제시한다. 특히 Kaplan‑Meier 기반 추정은 탈락이 사건 발생과 독립적이라고 가정하지만, 실제 임상 코호트에서는 위험 요인과 탈락이 상관관계를 가질 가능성이 높다. 반면 IPW와 사건 밀도 기반 방법은 탈락 메커니즘을 명시적으로 모델링함으로써 일관적인 추정량을 제공한다. 시뮬레이션에서는 탈락 비율을 10%에서 40%까지 변화시켰으며, 편향된 두 방법은 탈락이 증가할수록 E/O 비율이 15% 이상 왜곡되는 반면, IPW와 밀도 기반 방법은 평균 편차가 2% 이하에 머물렀다. 실제 E3N‑EPIC 코호트 적용 결과도 동일한 경향을 보였으며, 기존 유방암 위험 모델은 IPW 보정 후 E/O≈1.02로 거의 완벽한 보정을 나타냈다. 이러한 결과는 보정 평가 시 탈락을 무시하면 모델의 실제 성능을 오판할 위험이 크다는 점을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기