적응형 릿지 선택기
초록
본 논문은 선형 회귀 모델에서 변수 선택과 추정을 동시에 수행하는 새로운 베이지안 방법인 적응형 릿지 선택기(ARiS)를 제안한다. 회귀계수의 정밀도에 대한 감마형 하이퍼프리어를 도입하고, η라는 스칼라 하이퍼파라미터를 통해 shrinkage 정도를 조절한다. 조건부 사후분포를 이용한 반복 최적화(Lindley‑Smith)와 경험적 베이지안(EB) 방식으로 η를 선택하며, 기존 lasso·ridge·elastic‑net 등과 비교해 높은 예측 정확도와 변수 선택 정확도를 보인다.
상세 분석
ARiS는 기존 Relevance Vector Machine(RVM)의 계층적 베이지안 구조를 확장한 형태이다. 데이터 생성 모델은 y = Xβ + ε, ε∼N(0,σ²I)이며, 회귀계수 β에 대해 정규 사전 β|σ²,v⁻¹∼N(0,σ²V) 를 두고 V=diag(v₁,…,v_p) 로 정의한다. 여기서 v_j⁻¹는 독립적인 감마분포 v_j⁻¹∼Gamma(η+1, μ) 를 따르며, η는 형태 파라미터, μ는 역스케일 파라미터이다. η=0이면 지수분포, η=−1이면 RVM에서 사용한 부적절한 비제한 사전과 동일하게 된다.
조건부 사후분포는 다음과 같이 닫힌 형태를 가진다.
- β|σ²,v⁻¹,y ∼ N_p(e_β, σ²(e_V)⁻¹) where e_β=(X’X+V⁻¹)⁻¹X’y, e_V=X’X+V⁻¹.
- σ²|β,v⁻¹,y ∼ Inverse‑Gamma( (n+p)/2 , (y−Xβ)’(y−Xβ)+β’V⁻¹β ).
- v_j⁻¹|β_j,σ²,y ∼ Gamma( η+3/2 , (β_j²+2σ²μ)/(2σ²) ).
이 세 조건부 분포를 순차적으로 최대화하는 Lindley‑Smith 알고리즘을 적용하면, 매 반복마다 β는 가중된 릿지 문제 β^{(l)} = argmin_β ||y−Xβ||² + (1+2η)∑_j β_j² ω_j^{(l)} 로 변환된다. 여기서 ω_j^{(l)} = √{β_j^{(l−1)2}/σ²^{(l)}} 로 정의되어, 현재 계수 크기와 잔차 분산에 비례하는 가중치를 부여한다. η가 클수록 가중치가 크게 부과되어 더 강한 shrinkage가 발생한다.
η는 경험적 베이지안 단계에서 주변우도 p(y|η) 를 최대화함으로써 선택한다. 주변우도는 직접 계산이 어려우므로 라플라스 근사와 몬테카를로 시뮬레이션 기반 근사를 제시한다. 라플라스 근사는 사후모드 주변의 2차 테일러 전개를 이용해 로그우도를 근사하고, 시뮬레이션 방법은 Gibbs 샘플링을 통해 사후 평균을 추정한다.
알고리즘의 수렴 특성은 RVM과 유사하게 유한 단계 내에서 수렴한다. η=−½이면 OLS와 동일한 해를 얻으며, η=0이면 지수 사전이 적용된 라쏘와 비슷한 형태가 된다. 따라서 ARiS는 η에 따라 릿지, 라쏘, RVM 등 기존 방법들의 연속체를 제공한다.
실험에서는 다양한 희소성(sparsity) 수준과 표본 크기 n, 변수 수 p 조합에 대해 시뮬레이션을 수행하였다. 예측 MSE와 변수 선택 정확도(정밀도·재현율) 모두에서 ARiS가 lasso, elastic‑net, 비음수 garrote, 전통적 릿지보다 우수함을 보였다. 특히 표본이 충분히 클 때( n≫p ) 변수 선택 정확도가 급격히 향상되는 경향을 확인했다.
이와 같이 ARiS는 베이지안 계층 구조를 활용해 조건부 사후분포를 명시적으로 이용함으로써, 복잡한 마코프 체인 몬테카를로 없이도 효율적인 변수 선택과 추정을 동시에 수행한다는 장점을 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기