반파라메트릭 회귀와 정소세포암 데이터 분석
초록
본 논문은 다중 출처의 다변량 데이터를 이용해 반파라메트릭 밀도비 모델을 구축하고, 이를 기반으로 커널 밀도 추정과 회귀 추정을 동시에 수행한다. 제시된 방법은 단일 표본 커널 추정보다 효율적이며, 최적 대역폭 선택과 모델 진단 절차를 제공한다. 실제로 고환 정소세포암 환자의 키·연령이 체중에 미치는 영향을 분석하고, 전통적 다중 회귀, GAM, 비모수 커널 회귀와 비교한다.
상세 분석
논문은 먼저 반파라메트릭 밀도비 모델을 정의한다. 여기서 m개의 서로 다른 출처에서 얻은 다변량 표본 {Xij} (i=1,…,m; j=1,…,nij) 은 공통의 기준 분포 f0(x)에 대해 비율 함수 w_i(x)=exp{α_i+β_i^T h(x)} 로 표현된다. 이때 h(x)는 사전 지정된 변환 함수군이며, α_i와 β_i는 각 출처별 파라미터이다. 모델은 f_i(x)=w_i(x)f0(x) 형태를 취함으로써, 각 출처의 분포를 기준 분포에 대한 가중치로 재표현한다. 이러한 구조는 다중 표본을 하나의 통합된 추정 프레임워크에 포함시켜, 정보 손실을 최소화한다는 장점을 가진다.
추정 단계에서는 전체 데이터에 대한 로그우도 함수를 최대화하여 α_i와 β_i를 얻고, 동시에 f0(x)에 대한 비모수 커널 추정량을 구성한다. 구체적으로, f̂0(x)= (∑{i=1}^m ∑{j=1}^{n_i} K_h(x−Xij))/ (∑_{i=1}^m n_i ŵ_i(Xij)) 형태의 가중치 커널 밀도 추정식을 도입한다. 여기서 K_h는 대역폭 h를 갖는 커널 함수이며, ŵ_i는 추정된 비율 함수이다. 이 추정량은 전통적인 단일 표본 커널 추정량보다 분산이 감소하고, 평균제곱오차(MSE)가 개선됨을 이론적으로 증명한다. 특히, 대역폭 선택에 있어서는 교차검증(CV)과 플러그인 방법을 결합한 절차를 제시하여, 최적 h*를 효율적으로 찾는다.
조건부 기대값 E
댓글 및 학술 토론
Loading comments...
의견 남기기