갭 통계 로그와 비로그 정의의 비교 연구

본 논문은 클러스터 수 결정에 널리 쓰이는 갭 통계량을 기존의 log (Wₖ) 기반 정의와 Wₖ 그 자체를 이용한 정의 두 가지로 비교한다. 로그 변환 없이 Wₖ 를 사용하면 원래 정의가 만족되는 경우를 모두 포함하면서도 더 넓은 후보 군집 수를 허용한다는 이론적 관계를 증명하고, 시뮬레이션 및 DCE‑MR 영상 데이터에 적용해 실험적으로 검증한다.

저자: Mojgan Mohajer, Karl-Hans Englmeier, Volker J. Schmid

**1. 연구 배경 및 목적** 클러스터링 분석에서 적절한 군집 수 k 를 결정하는 일은 모델의 해석 가능성과 예측 성능에 직접적인 영향을 미친다. 그 중 가장 널리 사용되는 방법이 Tibshirani 등(2001)이 제안한 갭 통계량이다. 이 방법은 군집 내 분산 Wₖ (또는 그 로그)를 무작위 표본(Null reference)에서 기대되는 값과 비교함으로써, 실제 데이터가 무작위 구조보다 얼마나 뚜렷한 군집을 형성하는지를 정량화한다. 기존 문헌에서는 log (Wₖ) 를 표준화하고, “gap(k) ≥ gap(k+1) – sₖ₊₁”이라는 불평등을 만족하는 최소 k 를 최적 군집 수로 채택한다. 그러나 로그 변환이 기대값과 변동성을 왜곡할 가능성이 있다는 지적이 있었으며, 실제 적용 사례에서 로그 기반 갭이 과소추정하거나 불안정한 결과를 보이는 경우가 보고되었다. **2. 이론적 고찰** 저자들은 먼저 Wₖ 그 자체를 사용한 갭 정의를 공식화한다. - gap₍log₎(k) = E₀

갭 통계 로그와 비로그 정의의 비교 연구

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기