생존 분석에서의 편향 분산 분해
초록
본 논문은 기존 회귀·분류 분야에서 사용되던 편향‑분산 분해를 생존 분석에 적용하는 방법을 제시한다. 두 가지 Cox 모델(전통적 Cox 비례위험 회귀와 L1 정규화 경로 알고리즘인 CoxPath)의 오류를 훈련 샘플 크기별로 분해하여 비교했으며, 정규화가 반드시 편향을 감소시키고 전체 성능을 향상시키지는 않음을 실험적으로 확인하였다.
상세 분석
본 연구는 생존 분석 문제에 편향‑분산( bias‑variance ) 분해 개념을 도입함으로써, 모델 선택과 정규화가 예측 오류에 미치는 영향을 정량적으로 평가하고자 했다. 생존 데이터는 특성 벡터 x, 사건 발생 시간 t, 그리고 검열 여부 δ 로 구성되며, 일반적으로 모델 성능 평가는 Harrell의 concordance index(C‑index)로 수행된다. 저자는 C‑index를 “정확히 순서가 맞는 쌍의 비율”로 해석하고, 연속형 특성에 대해 ties가 거의 없다고 가정함으로써 이 지표를 이진 분류의 정확도와 동일시했다. 이를 기반으로 기존 이진 분류에서 사용되는 편향‑분산 분해식
E(C)=0.5·bias²(x)+0.5·variance²(x)+0.5·σ²(x)
을 생존 분석에도 적용하였다. 여기서 bias²는 학습 데이터 집합 H 에 대해 얻어진 예측 Y_H 와 실제 레이블 Y_F 의 차이, variance²는 서로 다른 H 에 의해 예측이 얼마나 변동하는지를 나타내며, σ²는 불가피한 노이즈(데이터 자체의 불확실성)를 의미한다.
두 모델은 (1) 전통적인 Cox 비례위험 회귀와 (2) L1 정규화 경로를 이용한 CoxPath이다. CoxPath는 λ 값을 변화시키며 일련의 모델을 생성하고, 검증 성능에 따라 최적 모델을 선택한다. 정규화는 일반적으로 variance를 감소시켜 과적합을 방지하지만, 모델 선택 과정에서 훈련 데이터에 대한 민감도가 증가해 bias가 상승할 가능성이 있다.
실험은 PBC(17 특성, 228 샘플)와 Ro02s(7 특성, 240 샘플) 두 실제 데이터셋을 사용했다. 전체 데이터를 80 % 테스트셋으로 고정하고, 나머지 20 %에서 훈련 샘플 크기를 단계적으로 늘리며 20개의 무작위 훈련 집합을 구성했다. 각 훈련 집합에 대해 10번의 반복 실험을 수행해 평균 variance와 전체 오류(1‑E(C))를 계산하였다.
결과는 다음과 같다. 두 데이터셋 모두 bias는 거의 동일했으며, 차이는 주로 variance와 전체 오류에 나타났다. PBC 데이터에서는 CoxPath가 variance를 현저히 낮추고 전체 성능을 향상시켰지만, Ro02s 데이터에서는 오히려 variance가 증가하고 성능이 떨어졌다. 이는 정규화가 데이터의 차원·특성 구조에 따라 다르게 작용함을 시사한다. 특히, 고차원·소규모 샘플에서는 정규화가 variance 감소에 기여하지만, 모델 선택 단계에서 과도한 파라미터 튜닝이 bias를 증가시켜 전체 오류를 최소화하지 못한다는 점을 강조한다.
저자는 추가적인 인공 데이터 실험과 고정 λ 값을 사용한 L1 정규화 Cox 모델을 통해 정규화 강도와 모델 선택 전략이 bias‑variance 트레이드오프에 미치는 영향을 더 체계적으로 조사할 필요성을 제시한다. 최종적으로, 생존 분석에서도 편향‑분산 분해를 활용하면 알고리즘의 강점·약점을 명확히 파악하고, 데이터 특성에 맞는 모델링 전략을 설계하는 데 유용함을 입증하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기