라쏘 모델 선택에서 관측수와 변수수 비율 1에서 발생하는 피크 현상

본 논문은 라쏘(Lasso) 회귀에서 관측수 n과 변수수 p의 비율이 n/p = 1일 때 테스트 오류가 급격히 상승하는 ‘피킹 현상’(peaking phenomenon)을 보고한다. 이 현상의 원인은 라쏘 패널티를 정의할 때 사용되는 최소제곱(OLS) 해의 ℓ₁‑노름 비율이며, 저자는 이를 정규화된 패널티 파라미터 s̃로 교정함으로써 피크를 제거할 수 있음을 실험적으로 입증한다.

저자: Nicole Kraemer

라쏘 모델 선택에서 관측수와 변수수 비율 1에서 발생하는 피크 현상
본 논문은 “On the Peaking Phenomenon of the Lasso in Model Selection”이라는 제목으로, 라쏘 회귀 모델을 고차원 상황에서 적용할 때 관측수 n과 변수수 p의 비율이 1, 즉 n = p일 때 테스트 오류가 급격히 상승하는 현상을 보고하고 그 원인을 분석한다. 1. **서론**에서는 고차원 회귀와 분류 문제에서 n/p 비율이 모델 성능에 미치는 일반적 기대를 언급한다. 기존 연구에서 n = p에서 표본 공분산 행렬의 Moore‑Penrose 의사역이 불안정해져 여러 방법(LDA, OLS 등)이 피크를 보인다는 사실을 인용한다. 저자는 라쏘가 직접적으로 의사역을 사용하지 않음에도 불구하고, 모델 선택 단계에서 최소제곱 해를 활용하는 현재 R 패키지 **lars**의 패널티 파라미터 정의가 문제를 일으킬 수 있음을 제시한다. 2. **시뮬레이션 설정 및 피킹 현상**에서는 p = 90인 선형 회귀 모델을 설정하고, n을 10부터 200까지 변화시키며 10번씩 재샘플링한다. 각 학습 집합에 대해 10‑fold 교차검증으로 최적의 패널티 s를 선택하고, 전체 학습 데이터에 대해 라쏘 해를 구한 뒤 500개의 테스트 샘플에 대한 평균제곱오차(MSE)를 측정한다. 결과는 Figure 1의 좌측 패널에서 n = p(=90) 지점에서 테스트 오류가 뚜렷한 피크를 형성함을 보여준다. 또한 교차검증 내부에서도 n_cv = p인 경우 동일한 피크가 관찰된다(오른쪽 패널). 3. **공분산 행렬의 의사역** 섹션에서는 기존 문헌을 인용해, 표본 공분산 행렬 Σ̂의 의사역 Σ̂⁺가 n = p에서 가장 작은 고유값들을 0으로 만들면서 큰 편향을 유발하고, 이는 MSE를 급격히 증가시킨다. OLS 해 \(\beta_{\text{ols}} = (X^{\top}X)^{+}X^{\top}y\) 역시 이 의사역을 사용하므로, ℓ₁‑노름 \(\|\beta_{\text{ols}}\|_{1}\)이 n = p에서 급증한다는 실험 결과(Figure 2)를 제시한다. 4. **라쏘 패널티의 정규화**에서는 현재 lars 패키지가 사용하는 패널티 파라미터 \

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기