데이터 분할과 경계 보정으로 향상된 kNN 엔트로피 추정기

본 논문은 k‑최근접 이웃(k‑NN) 기반의 플러그인 추정기를 데이터‑분할과 경계 보정을 결합한 새로운 형태인 BPI 추정기로 제안한다. 샘플을 두 집합으로 나누어 하나는 밀도 추정에, 다른 하나는 함수 적분에 사용함으로써 편향과 분산을 동시에 감소시켜 기존 방법보다 빠른 평균제곱오차 수렴을 달성한다. 또한 중심극한정리를 증명해 실용적인 신뢰구간을 제공한다.

저자: Kumar Sricharan, Raviv Raich, Alfred O. Hero III

본 논문은 확률밀도 f(x) 에 대한 비선형 함수 g(f) 의 적분값, 즉 ∫g(f(x))dx 을 추정하는 새로운 방법론을 제시한다. 이러한 적분값은 Shannon 엔트로피, Rényi 엔트로피, f‑다이버전스 등 정보이론 및 통계학에서 핵심적인 역할을 한다. 기존 연구에서는 k‑Nearest Neighbor(k‑NN) 기반 플러그인 추정기가 널리 사용되었지만, 전체 표본을 동시에 밀도 추정과 적분 추정에 활용함으로써 편향과 분산 사이의 트레이드오프가 비효율적이었다. 특히 고차원 상황에서 평균제곱오차(MSE)가 급격히 악화되는 ‘차원의 저주’ 문제가 심각했다. 이에 저자들은 ‘Bipartite Plug‑in (BPI)’ 추정기를 고안한다. 먼저 T 개의 i.i.d. 표본 {X₁,…,X_T} 을 무작위로 두 집합으로 나눈다. 첫 번째 집합은 크기 M 으로, k‑NN 밀도 추정에 사용한다. 두 번째 집합은 크기 N (=T−M)으로, 추정된 밀도값에 비선형 함수 g 를 적용한 뒤 평균을 구해 적분값을 추정한다. 이 구조는 두 단계가 통계적으로 독립하도록 보장해 편향과 분산을 명확히 분리할 수 있게 한다. 밀도 추정 단계에서는 각 x 에 대해 k‑NN 반경 ρₖ(x) 을 구하고, 일반적인 k‑NN 밀도 추정식 \

데이터 분할과 경계 보정으로 향상된 kNN 엔트로피 추정기

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기