기호 데이터 통계의 함정 평균 분산 공분산 공식의 근본적 오류
본 논문은 구간·히스토그램 형태의 기호 데이터를 위한 기존 평균·분산·공분산 정의가 내포한 가정들을 명시하고, 이러한 가정이 실제 데이터 분석에서 일관성을 깨뜨린다는 점을 여러 수학적 예와 시뮬레이션을 통해 증명한다. 특히 동일한 변수에 대한 공분산이 분산과 일치하지 않으며, 히스토그램의 구간 분할 방식에 따라 공분산값이 변하는 문제점을 지적한다.
저자: Antonio Irpino
본 논문은 기호 데이터(symbolic data) 분야에서 널리 사용되어 온 기본적인 일변량·이변량 통계량, 즉 평균, 분산, 표준편차, 공분산에 대한 기존 정의와 그 근거를 비판적으로 재검토한다. 먼저 저자는 구간값(variable with interval)과 히스토그램값(variable with histogram)이라는 두 종류의 기호 데이터를 수학적으로 정의한다. 구간값은
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기