의존성 추정 기반 지도형 특징 선택

초록

우리는 특징과 레이블 사이의 의존성을 측정하기 위해 Hilbert‑Schmidt Independence Criterion(HSIC)을 활용하는 특징 필터링 프레임워크를 제안한다. 좋은 특징은 이러한 의존성을 최대화해야 한다는 것이 핵심 아이디어이다. 분류와 회귀를 포함한 다양한 지도 학습 문제에 대해 특징 선택을 하나의 체계로 통합하고, 해결책은 역방향 제거 알고리즘을 통해 근사할 수 있다. 인공 데이터와 실제 데이터셋 양쪽에서 본 방법의 유용성을 실험적으로 입증한다.

상세 요약

본 논문은 특징 선택(feature selection) 문제를 “특징과 목표 변수 사이의 통계적 의존성을 얼마나 크게 만들 수 있는가”라는 관점에서 재정의한다. 기존의 필터 기반 방법들은 주로 상관계수, mutual information, χ² 검정 등 단일 통계량에 의존해 개별 특징의 유용성을 평가한다. 그러나 이러한 지표들은 비선형 관계를 포착하는 데 한계가 있다. HSIC는 두 확률 변수(또는 두 집합)의 비선형 의존성을 RKHS(Reproducing Kernel Hilbert Space) 상에서 측정하는 커널 기반 통계량으로, 커널 함수를 적절히 선택하면 복잡한 비선형 구조까지도 정량화할 수 있다.

논문은 먼저 HSIC를 특징 행렬 X와 레이블 벡터 Y 사이의 의존성 측정값으로 정의한다. HSIC는
\

초록

상세 요약

📜 논문 원문 (영문)