강건 최소거리 로지스틱 회귀와 변수 선택

본 논문은 로지스틱 회귀에서 아웃라이어에 의해 발생하는 파라미터 ‘수축(implosion)’ 현상을 극복하고, 고차원 소표본 상황에서도 변수 선택을 정확히 수행할 수 있는 최소거리(L₂E) 기반의 강건 추정 방법을 제안한다. Elastic Net 페널티와 MM 알고리즘을 결합해 비선형 최적화 문제를 효율적으로 해결하고, 시뮬레이션 및 실제 데이터에서 기존 LASSO 기반 방법보다 우수한 성능을 보인다.

저자: Eric C. Chi, David W. Scott

본 논문은 “Robust Parametric Classification and Variable Selection by a Minimum Distance Criterion”이라는 제목으로, 로지스틱 회귀 모델에 아웃라이어가 존재할 때 발생하는 파라미터 추정의 ‘수축(implosion)’ 현상을 해결하고, 동시에 변수 선택을 수행할 수 있는 새로운 방법론을 제시한다. 1. **문제 정의와 배경** - 현대 유전체·금융 데이터와 같이 p ≫ n인 고차원 상황에서 로지스틱 회귀는 변수 선택을 위해 L₁‑penalized 최대우도법(LASSO)이나 Elastic Net을 많이 사용한다. - 그러나 로지스틱 회귀의 로그우도는 아웃라이어에 대해 ‘반대 방향’으로 편향되며, 특히 중요한 변수에 아웃라이어가 포함되면 추정된 회귀계수가 원점으로 수축(implosion)한다. 이는 LASSO의 소프트‑쓰레시링과 결합돼 실제 중요한 변수를 0으로 만들게 된다. - 기존의 강건 회귀 방법(예: Huberized hinge loss, 최소 절단 제곱)은 주로 응답 변수의 아웃라이어에만 대응하고, 공변량 공간의 극단점에 대해서는 충분히 강건하지 않다. 2. **최소거리(L₂E) 손실 도입** - 저자들은 파라미터 θ가 정의하는 확률 질량 함수 \(P_\theta\)와 실제 데이터의 경험분포 P 사이의 L₂ 거리를 최소화하는 접근법을 제안한다. - 이 거리의 무편향 추정량은 \

강건 최소거리 로지스틱 회귀와 변수 선택

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기