고차원 근사 회귀에서 라쏘를 통한 일관된 변수 선택

본 논문은 전통적인 선형 회귀 가정을 벗어나, 사전 정의된 사전(dictionary) 함수 집합을 이용해 회귀 함수 f를 근사하는 고차원 모델에서 라쏘(Lasso) 기반 ℓ₁-패널티 최소제곱 추정법이 선택 일관성을 달성함을 보인다. 목표는 L₂-볼 안에서 가장 희소한 근사표현을 제공하는 함수 인덱스 집합 I*를 정확히 복구하는 것이며, 이를 위해 데이터 의존적 가중치와 rₙ,ₘ > √{log(Mn)/n} (또는 로그 요인 포함)인 튜닝 시퀀스를…

저자: Florentina Bunea

본 논문은 고차원 데이터 환경에서 회귀 함수 f 를 사전(dictionary) 함수 집합 F={f₁,…,f_M} 의 선형 결합으로 근사하는 문제를 다룬다. 전통적인 선형 회귀는 f(x)=∑_{j∈J*}β_j x_j 형태를 가정하고, 목표는 실제 비제로 계수들의 인덱스 J* 를 정확히 복구하는 것이었다. 그러나 실제 응용에서는 f가 정확히 선형이 아니거나, 사전 함수가 다양한 추정량·기저함수 등으로 구성될 수 있다. 저자는 이러한 상황을 포괄하기 위해, L₂(ν) 거리 rₙ,ₘ 내에서 f와 가장 가깝게 근사하는 선형 결합을 찾고, 그 중 비제로 계수 개수가 최소인 λ*와 그 인덱스 집합 I* 를 “목표”로 정의한다. 수학적으로는 Λ={λ∈ℝ^M : ‖∑_{j=1}^M λ_j f_j − f‖₂ ≤ C_f rₙ,ₘ}를 설정하고, k* = min_{λ∈Λ}‖λ‖₀를 구한다. 그런 다음 λ* = argmin_{λ∈Λ,‖λ‖₀=k*}‖∑ λ_j f_j − f‖₂, I* = J(λ*)를 목표 인덱스로 삼는다. 이 정의는 파라메트릭 경우 J*를 특수한 경우로 포함한다. 목표 인덱스가 의미 있게 식별되려면 λ*의 비제로 계수가 너무 작아서는 안 된다. 이를 위해 Condition (C) : min_{j∈I*}|λ*_j| > B rₙ,ₘ (B>0) 를 가정한다. 이 조건은 신호 강도가 잡음 수준보다 충분히 크다는 것을 보장한다. 라쏘 기반 추정은 다음과 같이 정의된다. \

고차원 근사 회귀에서 라쏘를 통한 일관된 변수 선택

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기