고차원 회귀에서 다중 분할을 통한 p‑값 통합과 오류 제어
본 논문은 Wasserman‑Roeder(2008)의 단일 데이터 분할 방법이 갖는 ‘p‑값 복권’ 문제를 해결하고자, 여러 무작위 분할을 수행한 뒤 각 분할에서 얻은 p‑값을 적절히 집계하는 다중‑분할 기법을 제안한다. 제안 방법은 FWER와 FDR을 모두 비대칭적으로 제어하면서, 기존 단일‑분할 대비 검정력과 재현성을 크게 향상시킨다.
저자: Nicolai Meinshausen, Lukas Meier, Peter B"uhlmann
**1. 서론**
고차원 회귀 분석에서 변수 선택은 Lasso, Adaptive Lasso, Boosting 등 다양한 방법으로 활발히 연구되어 왔다. 그러나 이러한 방법들은 주로 예측 정확도에 초점을 맞추며, 선택된 변수에 대한 통계적 유의성을 검증하는 p‑값을 제공하지 못한다. Wasserman과 Roeder(2008)는 데이터를 두 부분으로 나누어 첫 번째 파트에서 스크리닝, 두 번째 파트에서 전통적인 OLS 검정을 수행함으로써 asymptotic FWER 제어가 가능한 ‘screen‑and‑clean’ 절차를 제안했지만, 단일 무작위 분할에 의존해 결과가 재현되지 않을 위험이 있다.
**2. 단일‑분할 방법과 그 한계**
단일‑분할 절차는 (i) 데이터 \(D_{\text{in}}, D_{\text{out}}\) 로 무작위 분할, (ii) \(D_{\text{in}}\) 에서 스크리닝 함수 \(\tilde S\) 로 변수 집합을 선택, (iii) \(D_{\text{out}}\) 에서 OLS 회귀 후 p‑값 \(\tilde P_j\) 를 계산하고 \(|\tilde S|\) 로 보정한다. 이때 \(\tilde S\supseteq S\) (스크리닝 보장)와 \(|\tilde S|
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기