고차원 회귀에서 다중 분할을 통한 p‑값 통합과 오류 제어

본 논문은 Wasserman‑Roeder(2008)의 단일 데이터 분할 방법이 갖는 ‘p‑값 복권’ 문제를 해결하고자, 여러 무작위 분할을 수행한 뒤 각 분할에서 얻은 p‑값을 적절히 집계하는 다중‑분할 기법을 제안한다. 제안 방법은 FWER와 FDR을 모두 비대칭적으로 제어하면서, 기존 단일‑분할 대비 검정력과 재현성을 크게 향상시킨다.

저자: Nicolai Meinshausen, Lukas Meier, Peter B"uhlmann

**1. 서론** 고차원 회귀 분석에서 변수 선택은 Lasso, Adaptive Lasso, Boosting 등 다양한 방법으로 활발히 연구되어 왔다. 그러나 이러한 방법들은 주로 예측 정확도에 초점을 맞추며, 선택된 변수에 대한 통계적 유의성을 검증하는 p‑값을 제공하지 못한다. Wasserman과 Roeder(2008)는 데이터를 두 부분으로 나누어 첫 번째 파트에서 스크리닝, 두 번째 파트에서 전통적인 OLS 검정을 수행함으로써 asymptotic FWER 제어가 가능한 ‘screen‑and‑clean’ 절차를 제안했지만, 단일 무작위 분할에 의존해 결과가 재현되지 않을 위험이 있다. **2. 단일‑분할 방법과 그 한계** 단일‑분할 절차는 (i) 데이터 \(D_{\text{in}}, D_{\text{out}}\) 로 무작위 분할, (ii) \(D_{\text{in}}\) 에서 스크리닝 함수 \(\tilde S\) 로 변수 집합을 선택, (iii) \(D_{\text{out}}\) 에서 OLS 회귀 후 p‑값 \(\tilde P_j\) 를 계산하고 \(|\tilde S|\) 로 보정한다. 이때 \(\tilde S\supseteq S\) (스크리닝 보장)와 \(|\tilde S|

고차원 회귀에서 다중 분할을 통한 p‑값 통합과 오류 제어

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기