엔트로피 추정의 새로운 연결고리: H z와 H₁의 동일성 및 H₂의 우수성

본 논문은 최근 제안된 엔트로피 추정량 ˆH_z와 기존의 ˆH₁이 수학적으로 동일함을 증명하고, ˆH₁이 전통적인 최대우도 추정량 ˆH₀보다 편향이 작음을 보인다. 또한, ˆH₂가 ˆH_z보다 평균제곱오차(RMSE) 측면에서 특히 표본 크기 N이 작고 사건 공간 크기 M이 큰 경우에 현저히 우수함을 수치 실험을 통해 확인한다. 계산 복잡도와 편향·분산 상한에 대한 논의도 포함한다.

저자: Thomas Sch"urmann

이 논문은 엔트로피 추정 문제를 다루면서, 최근 Zhang(2012) 가 제안한 ˆH_z 와 기존에 Grassberger와 Schürmann이 제시한 ˆH₁ 사이의 수학적 동등성을 밝힌다. 먼저, 엔트로피 H=−∑ p_i log p_i 를 표본 크기 N과 사건 수 M에 대해 추정하는 전통적인 방법인 최대우도 추정 ˆH₀=−∑ (k_i/N) log(k_i/N) 를 소개한다. ˆH₀는 N이 충분히 클 때는 일관성을 가지지만, M이 N과 비슷하거나 더 클 경우 편향이 크게 발생한다는 점을 여러 선행 연구가 지적하였다. 이를 보완하기 위해 Zhang은 Shannon 엔트로피를 무한 급수 형태 H=∑_{ν=1}^∞ (1/ν)∑ p_i (1−p_i)^ν 로 전개하고, 각 항을 무편향 추정량 Z_ν/ν 로 근사한다. Z_ν는 조합론적 식 (4) 로 정의되며, ν≤N−1 까지는 정확히 무편향이다. 이 식을 정리하면 Z_{i,ν}=k_i·C(N−k_i,ν)/C(N,ν) 로 변환되고, ν에 대해 1/ν을 가중합하면 ˆH_z = ∑_{i=1}^M (k_i/N)

엔트로피 추정의 새로운 연결고리: H z와 H₁의 동일성 및 H₂의 우수성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기