거리공분산을 이용한 다양성 기반 변수 선택
본 논문은 표본 거리공분산의 부정값이 통계적으로 독립하지 않은 변수 집합에 대해 준볼록(quasi‑concave) 집합함수임을 증명하고, 이를 기반으로 다양성을 극대화하는 목표 함수를 전역 최적으로 찾는 탐욕 알고리즘을 제안한다. 알고리즘은 포함‑최소(maximizer) 해들을 모두 열거하며, 이를 회귀·분류 문제의 특징 선택에 적용해 관련성은 유지하면서 변수 간 의존성을 최소화한다. 또한 기존 거리공분산 기반 관련성 선택 기법과 결합해 관련성…
저자: Praneeth Vepakomma, Yulia Kempner
본 논문은 통계학 및 머신러닝에서 핵심적인 문제인 변수(특징) 선택을 새로운 관점에서 접근한다. 기존 방법들은 주로 목표 변수와의 관련성(relevance)에 초점을 맞추어 변수 집합을 선정했지만, 실제 응용에서는 선택된 변수들 간의 상호 의존성, 즉 다양성(diversity)이 중요한 역할을 한다. 저자들은 이러한 다양성을 정량화하기 위해 거리공분산(distance covariance)이라는 비선형 의존성 측정 지표를 활용한다. 거리공분산은 두 임의 벡터가 독립이면 0이 되고, 독립이 아닐 경우 양의 값을 갖는 특성을 가지고 있어, 변수 간의 통계적 의존성을 포괄적으로 평가할 수 있다.
논문의 첫 번째 주요 이론적 기여는 부정 거리공분산(–ν²)이 준볼록(quasi‑concave) 집합함수임을 증명한 것이다. 이를 위해 저자들은 Kosorok의 거리공분산 독립성 부등식 ν²(X+Z, Y) ≤ ν²(X, Y)를 활용한다. 두 부분집합 S와 T에 대해 –ν²(S∩T, Y) ≥ min{–ν²(S, Y), –ν²(T, Y)}가 성립함을 보임으로써, 정의에 따라 –ν²가 준볼록성을 만족한다는 것을 확인한다. 이 결과는 집합 함수 최적화 이론에서 중요한 성질이며, 특히 전역 최적을 보장하는 탐욕 알고리즘 설계에 핵심적인 기반이 된다.
다음으로 저자들은 “링크 함수(linkage function)” π를 정의한다. π(X_i, S)=∑_{X_j∈S} ν²(X_i, X_j)는 변수 X_i와 현재 선택 집합 S에 포함된 모든 변수와의 거리공분산 합을 의미한다. 이 함수는 S⊆T이면 π(X_i, T) ≤ π(X_i, S)인 단조성(monotonicity)을 갖는다. 이를 바탕으로 M_π(T)=min_{X_i∉T} π(X_i, T) 라는 집합함수를 만든다. M_π는 현재 집합 T에 대해 가장 “가까운”(즉, 가장 작은 거리공분산 합을 갖는) 외부 변수를 찾는 역할을 하며, 기존 연구
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기