라쏘 모델 선택에서 관측수와 변수수 비율 1에서 발생하는 피크 현상

본 논문은 “On the Peaking Phenomenon of the Lasso in Model Selection”이라는 제목으로, 라쏘 회귀 모델을 고차원 상황에서 적용할 때 관측수 n과 변수수 p의 비율이 1, 즉 n = p일 때 테스트 오류가 급격히 상승하는 현상을 보고하고 그 원인을 분석한다. 1. **서론**에서는 고차원 회귀와 분류 문제에서 n/p 비율이 모델 성능에 미치는 일반적 기대를 언급한다. 기존 연구에서 n = p에서 표본 공분산 행렬의 Moore‑Penrose 의사역이 불안정해져 여러 방법(LDA, OLS 등)이 피크를 보인다는 사실을 인용한다. 저자는 라쏘가 직접적으로 의사역을 사용하지 않음에도 불구하고, 모델 선택 단계에서 최소제곱 해를 활용하는 현재 R 패키지 **lars**의 패널티 파라미터 정의가 문제를 일으킬 수 있음을 제시한다. 2. **시뮬레이션 설정 및 피킹 현상**에서는 p = 90인 선형 회귀 모델을 설정하고, n을 10부터 200까지 변화시키며 10번씩 재샘플링한다. 각 학습 집합에 대해 10‑fold 교차검증으로 최적의 패널티 s를 선택하고, 전체 학습 데이터에 대해 라쏘 해를 구한 뒤 500개의 테스트 샘플에 대한 평균제곱오차(MSE)를 측정한다. 결과는 Figure 1의 좌측 패널에서 n = p(=90) 지점에서 테스트 오류가 뚜렷한 피크를 형성함을 보여준다. 또한 교차검증 내부에서도 n_cv = p인 경우 동일한 피크가 관찰된다(오른쪽 패널). 3. **공분산 행렬의 의사역** 섹션에서는 기존 문헌을 인용해, 표본 공분산 행렬 Σ̂의 의사역 Σ̂⁺가 n = p에서 가장 작은 고유값들을 0으로 만들면서 큰 편향을 유발하고, 이는 MSE를 급격히 증가시킨다. OLS 해 \(\beta_{\text{ols}} = (X^{\top}X)^{+}X^{\top}y\) 역시 이 의사역을 사용하므로, ℓ₁‑노름 \(\|\beta_{\text{ols}}\|_{1}\)이 n = p에서 급증한다는 실험 결과(Figure 2)를 제시한다. 4. **라쏘 패널티의 정규화**에서는 현재 lars 패키지가 사용하는 패널티 파라미터 \

라쏘 모델 선택에서 관측수와 변수수 비율 1에서 발생하는 피크 현상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기