Cox 모델 변수 선택 후 통계 추론 시뮬레이션 연구
초록
본 논문은 Cox 비례위험 모델에서 Lasso와 adaptive Lasso를 이용한 변수 선택 후, 샘플 스플리팅, 정확한 사후 선택 추론, 그리고 디바이즈드 Lasso(탈편향 Lasso) 세 가지 방법의 신뢰구간 커버리지와 효율성을 실험적으로 비교한다. 현실적인 공변량 구조와 검열 비율을 반영한 시뮬레이션과 공개 생존 데이터 예시를 통해 각 방법의 장·단점을 제시한다.
상세 분석
논문은 먼저 Cox 모델의 기본 설정을 명확히 하고, Lasso와 adaptive Lasso가 어떻게 부분 로그가능도에 ℓ1 패널티를 부과하여 변수 선택을 수행하는지를 설명한다. 여기서 중요한 점은 Lasso가 선택된 변수에 대해 편향된 추정값을 제공한다는 점이며, adaptive Lasso는 가중치를 통해 큰 효과를 가진 변수의 편향을 완화하지만 여전히 선택 후 추론에 대한 이론적 보장은 부족하다는 점이다.
세 가지 사후 선택 추론 방법을 차례로 소개한다. 샘플 스플리팅은 데이터를 두 부분으로 나누어 첫 번째 부분에서 모델을 선택하고, 두 번째 부분에서 선택된 변수에 대해 무패널티 Cox 회귀를 수행한다. 이 접근법은 선택 이벤트와 추론 데이터가 독립적이므로 조건부 커버리지를 보장하지만, 데이터 효율성이 떨어져 신뢰구간이 넓어지는 경향이 있다.
정확한 사후 선택 추론(Exact PSI)은 Lee et al.의 프레임워크를 Cox 모델에 적용한 것으로, 선택된 서브모델을 고정하고 그 모델 내에서 부분 로그가능도의 정확한 유한표본 분포를 이용해 신뢰구간을 구성한다. 이 방법은 λ를 사전에 고정해야 하며, 무작위화된 튜닝 파라미터 선택이 아직 구현되지 않아 실제 적용이 제한적이다.
디바이즈드 Lasso는 Lasso 추정값에 일 단계 보정(term)을 추가해 편향을 제거하고, 점근적 정규성을 회복한다. Cox 모델에서는 부분 로그가능도의 스코어와 피셔 정보 행렬의 추정치를 사용해 보정한다. 이 방법은 선택 이벤트를 조건부로 다루지 않으므로 무조건적 커버리지를 제공하지만, 점근적 근사에 의존하므로 작은 표본이나 높은 검열 비율에서 성능이 저하될 수 있다.
시뮬레이션 설계는 Kammer et al.의 선형 회귀 시뮬레이션을 확장한 형태로, 공변량 상관구조, 변수 수(p), 표본 크기(n), 검열 비율(20%~50%) 등을 다양하게 변형하였다. 주요 평가지표는 선택된 변수에 대한 신뢰구간 커버리지, 평균 구간 길이, 선택된 변수의 검정력(선택된 진짜 효과를 발견하는 비율)이다. 결과는 샘플 스플리팅이 가장 보수적인 커버리지를 제공하지만 구간이 가장 넓고, 정확한 PSI는 커버리지는 적절하지만 구현 복잡도와 λ 고정 요구사항이 실용성을 저해한다는 점을 보여준다. 디바이즈드 Lasso는 평균적으로 적당한 커버리지를 유지하면서 구간이 비교적 짧아 효율적이지만, 높은 검열 상황에서는 커버리지가 약간 감소한다.
실제 데이터 예시에서는 공개된 유방암 생존 데이터에 대해 Lasso 기반 변수 선택 후 세 방법을 적용했으며, 결과는 시뮬레이션과 일치하게 각 방법이 제공하는 신뢰구간 폭과 p‑값에 차이를 보였다. 특히, 디바이즈드 Lasso는 실무에서 빠르게 적용 가능하고 해석이 용이한 반면, 정확한 PSI는 제한된 상황에서만 사용이 권장된다.
전체적으로 논문은 Cox 모델에서 변수 선택 후 추론을 수행할 때, 데이터 규모와 검열 정도에 따라 적절한 방법을 선택해야 함을 강조한다. 작은 표본이나 높은 검열 비율에서는 샘플 스플리팅이 안전하지만 효율성이 떨어지고, 충분한 표본이 확보된 경우 디바이즈드 Lasso가 실용적인 대안이 된다.
댓글 및 학술 토론
Loading comments...
의견 남기기