밀도 균형을 측정하는 볼츠만샤논 지수

밀도 균형을 측정하는 볼츠만샤논 지수
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

볼츠만‑샤논 지수(BSI)는 클러스터링된 연속 데이터를 대상으로, 클러스터별 빈도 분포와 기하학적 부피(또는 변동) 분포 사이의 일치를 정규화된 형태로 정량화한다. JSD(제이슨‑셰넌 발산)를 이용해 0~1 사이의 값으로 나타내며, 1에 가까울수록 클러스터가 동일 밀도를 유지함을 의미한다. 기존 실루엣·DBI·CH와 같은 거리 기반 지표가 밀도 불균형을 간과하는 반면, BSI는 기하‑통계적 정보를 동시에 반영해 불균형을 민감하게 탐지한다.

상세 분석

본 논문은 연속형 데이터에 대한 클러스터링 결과를 평가하기 위해 두 가지 확률분포—빈도 기반 p와 기하학적 기반 q—를 정의하고, 이들 사이의 제이슨‑셰넌 발산(JSD)을 이용해 정규화된 지표 BSI = 1 − JSD(p‖q) 를 제안한다. p는 각 클러스터에 속한 샘플 수를 N으로 나눈 단순 비율이며, q는 각 클러스터가 차지하는 “부피”를 정량화한다. 부피 추정 방법으로는 (1) 명시적 경계가 존재할 경우 볼록 껍질이나 Voronoi 영역의 d‑차원 부피, (2) 경계가 불명확할 경우 각 클러스터 행렬에 대한 특이값 분해(SVD)를 수행하고, 모든 특이값의 곱을 기하학적 스케일로 사용하는 방식을 채택한다. 특이값 곱은 클러스터 내 데이터가 차지하는 축 방향 변동량을 모두 반영하므로, 겹치는 영역이나 이상치에 강인한 특성을 가진다.

수식적으로 BSI는
\


댓글 및 학술 토론

Loading comments...

의견 남기기