거리공분산을 이용한 다양성 기반 변수 선택

본 논문은 통계학 및 머신러닝에서 핵심적인 문제인 변수(특징) 선택을 새로운 관점에서 접근한다. 기존 방법들은 주로 목표 변수와의 관련성(relevance)에 초점을 맞추어 변수 집합을 선정했지만, 실제 응용에서는 선택된 변수들 간의 상호 의존성, 즉 다양성(diversity)이 중요한 역할을 한다. 저자들은 이러한 다양성을 정량화하기 위해 거리공분산(distance covariance)이라는 비선형 의존성 측정 지표를 활용한다. 거리공분산은 두 임의 벡터가 독립이면 0이 되고, 독립이 아닐 경우 양의 값을 갖는 특성을 가지고 있어, 변수 간의 통계적 의존성을 포괄적으로 평가할 수 있다. 논문의 첫 번째 주요 이론적 기여는 부정 거리공분산(–ν²)이 준볼록(quasi‑concave) 집합함수임을 증명한 것이다. 이를 위해 저자들은 Kosorok의 거리공분산 독립성 부등식 ν²(X+Z, Y) ≤ ν²(X, Y)를 활용한다. 두 부분집합 S와 T에 대해 –ν²(S∩T, Y) ≥ min{–ν²(S, Y), –ν²(T, Y)}가 성립함을 보임으로써, 정의에 따라 –ν²가 준볼록성을 만족한다는 것을 확인한다. 이 결과는 집합 함수 최적화 이론에서 중요한 성질이며, 특히 전역 최적을 보장하는 탐욕 알고리즘 설계에 핵심적인 기반이 된다. 다음으로 저자들은 “링크 함수(linkage function)” π를 정의한다. π(X_i, S)=∑_{X_j∈S} ν²(X_i, X_j)는 변수 X_i와 현재 선택 집합 S에 포함된 모든 변수와의 거리공분산 합을 의미한다. 이 함수는 S⊆T이면 π(X_i, T) ≤ π(X_i, S)인 단조성(monotonicity)을 갖는다. 이를 바탕으로 M_π(T)=min_{X_i∉T} π(X_i, T) 라는 집합함수를 만든다. M_π는 현재 집합 T에 대해 가장 “가까운”(즉, 가장 작은 거리공분산 합을 갖는) 외부 변수를 찾는 역할을 하며, 기존 연구

거리공분산을 이용한 다양성 기반 변수 선택

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기