무작위 생존 숲: 오른쪽 검열 데이터 분석의 혁신

본 논문은 오른쪽 검열(right‑censored)된 생존 데이터를 분석하기 위한 새로운 머신러닝 방법인 Random Survival Forests(RSF)를 제안한다. RSF는 Breiman이 제시한 Random Forest의 두 가지 무작위화 전략—부트스트랩 샘플링과 변수 서브셋 선택—을 그대로 유지하면서, 생존 분석에 특화된 분할 기준과 예측 메커니즘을 추가한다. 첫 번째 단계는 부트스트랩 샘플을 이용해 B개의 트리를 독립적으로 성장시키는 것이다. 각 트리의 성장 과정에서, 노드마다 p개의 후보 변수 중 무작위로 선택된 변수와 임계값을 탐색해, ‘생존 차이’를 최대화하는 split을 찾는다. 여기서 생존 차이는 두 자식 노드의 누적 위험 함수(또는 Nelson‑Aalen 추정치)의 차이로 정의되며, 검열 정보를 포함한다. 이 방식은 기존의 회귀나 분류용 impurity 기준과 달리, 사건 발생률 자체를 직접 최적화한다는 점에서 차별적이다. 트리가 성장하면, 각 터미널 노드에 포함된 사례들의 사건 수와 위험에 노출된 시간(Y_l,h)을 이용해 Nelson‑Aalen 추정량 ˆH_h(t)=∑_{l:t_l≤t} d_{l,h}/Y_{l,h}를 계산한다. 이 추정량은 해당 노드에 속한 모든 사례에 동일하게 적용되며, 개별 사례 i에 대한 누적 위험 함수는 H(t|x_i)=ˆH_h(t) (x_i가 속한 노드 h) 로 정의된다. 다음으로, 부트스트랩과 OOB(out‑of‑bag) 두 종류의 ensemble 누적 위험 함수(ensemble CHF)를 평균한다. 부트스트랩 ensemble CHF는 모든 트리의 추정치를 단순 평균한 것이고, OOB ensemble CHF는 각 사례 i가 OOB인 트리들만을 평균한다. OOB ensemble CHF는 검증용으로 바로 사용할 수 있어, 별도의 검증 데이터 없이도 모델의 예측 성능을 평가한다. 핵심 이론적 기여는 ‘사건 보존 원리(conservation‑of‑events)’이다. 저자들은 각 터미널 노드에서 Nelson‑Aalen 추정량을 사용하면, 그 노드 내 모든 관측 시간에 대한 누적 위험의 합이 실제 사건 수와 정확히 일치함을 수학적으로 증명한다(Lemma 1). 이를 전체 트리와 포레스트에 확대하면, 전체 데이터에 대한 누적 위험의 합이 전체 사망 수와 동일함을 보인다(Corollary 1). 이 원리를 바탕으로 ‘ensemble mortality’라는 새로운 예측 지표를 정의한다. 개별 사례 i에 대해, 전체 데이터의 누적 위험을 i의 공변량 x_i에 조건부로 평균한 값 M_i=E

무작위 생존 숲: 오른쪽 검열 데이터 분석의 혁신

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기