고차원 데이터용 빠르고 확장 가능한 셀별 강인 앙상블

본 논문은 셀 단위 오염이 존재하는 고차원 데이터에서 변수 선택과 회귀 예측을 동시에 수행할 수 있는 Fast and Scalable Cellwise‑Robust Ensemble(FSCRE) 알고리즘을 제안한다. FSCRE는 (1) DDC 기반 셀별 정제와 강인 공분산 추정, (2) 강인 LARS 기반 후보 변수 제안, (3) 교차 검증을 통한 최종 모델 할당이라는 세 단계로 구성된다. 이 구조는 이론적 불변성, 지역 선택 안정성 및 선형 시간…

저자: Anthony Christidis, Jeyshinee Pynee, ee

고차원 데이터용 빠르고 확장 가능한 셀별 강인 앙상블
본 논문은 고차원 데이터 분석에서 흔히 발생하는 셀별 오염 문제를 해결하기 위해 Fast and Scalable Cellwise‑Robust Ensemble(FSCRE)라는 새로운 알고리즘을 제안한다. 서론에서는 p≫n 상황에서 변수 선택이 핵심 과제이며, 기존 강인 통계는 주로 케이스‑단위(outlier rows) 오염에 초점을 맞추었다는 점을 지적한다. 반면, 셀별 오염은 개별 셀만이 변형되어 전체 행을 오염시키며, 특히 상관 오염(correlation outlier)은 공분산 구조를 크게 왜곡시켜 기존 변수 선택 방법을 무력화한다. 문헌 검토에서는 셀‑강인 데이터 정제(DDC, fast DDC), 강인 공분산·정밀도 추정(셀‑MCD, 고차원 S‑estimator), 그리고 고차원 셀‑강인 회귀(Sparse Shooting S, CR‑Lasso) 등을 소개한다. 그러나 이들 방법은 복잡한 비볼록 최적화에 의존하고, 앙상블 구조와 결합되지 않아 확장성이 제한된다. 동시에, Random Forest, Gradient Boosting, 그리고 최근의 Deterministic Competitive Ensemble과 같은 앙상블 기법은 고차원 변수 선택과 collinearity 관리에 강점을 보이지만 셀별 오염에 취약하다. FSCRE는 이러한 격차를 메우기 위해 세 단계로 구성된 파이프라인을 설계한다. 1) **Robust Foundation**: 관측된 행렬

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기