고차원 코흐 비례위험 모델 변수 선택 방법
초록
본 논문은 고차원 유전체 데이터와 생존 정보를 결합한 연구에서 변수 선택의 어려움을 해결하기 위해, Fan과 Lv(2008)의 Sure Independence Screening(SIS) 절차를 코흐 비례위험 모델에 확장하고, 이를 반복적 형태인 ISIS(Iterative SIS)와 결합한 방법을 제안한다. 시뮬레이션 결과는 제안된 방법이 LASSO 등 기존 기법에 비해 변수 선별 정확도와 예측 성능에서 우수함을 보여준다.
상세 분석
본 연구는 고차원 데이터 환경, 즉 변수의 수(p)가 표본 크기(n)보다 훨씬 큰 경우에 생존 분석을 수행할 때 발생하는 차원의 저주와 변수 선택의 불확실성을 해결하고자 한다. 기존의 Cox 비례위험 모델은 변수 수가 제한적일 때는 효과적이지만, p≫n 상황에서는 최대우도 추정이 불가능하고 과적합 위험이 크게 증가한다. 이를 극복하기 위해 최근 많이 활용되는 L1 정규화(LASSO) 기반 방법이 존재하지만, LASSO는 변수 간 상관관계가 높을 경우 선택 불안정성을 보이며, 최적의 정규화 파라미터 선택이 어려운 단점이 있다.
Fan과 Lv(2008)가 제안한 Sure Independence Screening(SIS)은 각 변수와 반응 변수 사이의 단순 상관(또는 회귀계수) 크기를 기준으로 상위 k개의 변수를 미리 선택함으로써 차원을 급격히 감소시키는 전처리 기법이다. SIS는 “sure screening property”를 만족한다는 이론적 보장을 제공하는데, 이는 진짜 중요한 변수들이 선택된 서브셋에 포함될 확률이 1에 수렴한다는 의미이다. 그러나 Cox 모델은 비선형 위험함수와 검열(censoring) 구조를 포함하므로, 단순 상관 기반 SIS를 그대로 적용하기엔 한계가 있다.
논문은 이러한 한계를 극복하기 위해 Cox 모델 전용 SIS를 설계한다. 구체적으로, 각 후보 변수 X_j에 대해 부분 로그우도(partial log‑likelihood) 함수를 최대화한 추정값 β̂_j를 구하고, 그 절대값 |β̂_j|를 변수 중요도 점수로 사용한다. 검열을 고려한 부분 로그우도는 위험비(hazard ratio)를 직접 추정하므로, 변수와 생존 시간 사이의 실제 연관성을 반영한다. 이후 |β̂_j|가 큰 순서대로 상위 d개의 변수를 선택하고, d는 n의 로그 스케일(log n) 혹은 사전 지정된 비율에 따라 결정한다.
이 기본 SIS 절차는 “Iterative SIS”(ISIS)와 결합될 수 있다. ISIS는 초기 SIS로 선택된 변수 집합을 기반으로 다변량 Cox 회귀를 수행하고, 잔차(residual) 혹은 조건부 위험을 다시 계산하여 남은 변수들의 중요도를 재평가한다. 이렇게 반복하면 초기 SIS에서 놓친 변수들을 회복할 수 있으며, 변수 간 상호작용이나 공동 효과를 더 잘 포착한다. 논문은 ISIS 과정에서 변수 수를 점진적으로 늘리거나 줄이는 전략을 제시하고, 각 단계에서 교차 검증을 통해 최적의 모델 크기를 선택한다.
이론적 측면에서는, 제안된 Cox‑SIS가 기존 SIS와 동일한 sure screening property를 유지함을 증명한다. 핵심 가정은 (1) 위험비가 로그선형 형태를 따르고, (2) 검열 메커니즘이 독립적이며, (3) 변수들의 분포가 적당히 가벼운 꼬리를 가진다. 이러한 가정 하에, 선택된 변수 집합이 진짜 신호를 포함할 확률이 1−O(p exp(−c n)) 형태로 수렴한다는 결과를 얻는다.
실험에서는 다양한 시뮬레이션 시나리오를 설정하였다. 첫째, 독립적인 고차원 정규 변수와 비선형 위험함수를 결합한 경우, 둘째, 강한 상관관계를 가진 그룹 변수 구조, 셋째, 검열 비율이 20%~50%인 상황을 고려했다. 각 경우에 대해 제안된 Cox‑ISIS와 LASSO, Elastic Net, 그리고 기존 Cox‑SIS(비반복형)를 비교하였다. 성능 평가지표는 변수 선택 정확도(정밀도·재현율), 예측 오차(Concordance index), 그리고 모델 복잡도(선택된 변수 수)였다. 결과는 Cox‑ISIS가 특히 상관관계가 높은 그룹 변수와 높은 검열 비율에서 LASSO보다 월등히 높은 재현율과 C‑index을 보였으며, 선택된 변수 수도 적절히 제한되어 과적합 위험을 최소화했다.
마지막으로 실제 데이터 적용 사례로, 유방암 환자의 마이크로어레이 유전자 발현 데이터와 전체 생존 시간을 이용한 분석을 수행하였다. 초기 SIS 단계에서 5000개의 유전자를 100개의 후보군으로 축소한 뒤, ISIS를 3회 반복하여 최종 12개의 유전자를 선택하였다. 선택된 유전자는 기존 문헌에서 암 진행과 연관된 것으로 알려진 유전자와 일치했으며, Cox‑ISIS 모델의 C‑index은 0.78로, LASSO 기반 모델(0.71)보다 현저히 높은 예측력을 나타냈다.
요약하면, 본 논문은 Cox 비례위험 모델에 특화된 Sure Independence Screening과 그 반복적 확장인 ISIS를 제안함으로써, 고차원 생존 데이터에서 변수 선택의 정확도와 예측 성능을 크게 향상시켰다. 이 방법은 이론적 보장과 실증적 검증을 동시에 제공하므로, 유전체 기반 임상 연구 및 정밀 의학 분야에서 실용적인 도구로 활용될 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기