빠른 중위수 계산을 위한 연속 구간 나눔 기법

본 논문은 평균·표준편차를 이용해 데이터 범위를 제한하고, 고정된 구간 수로 반복적으로 구간을 나누어 중위수를 찾는 **binmedian** 알고리즘과, 구간의 중앙값을 바로 반환하는 근사 알고리즘 **binapprox**를 제안한다. 평균‑표준편차 범위 안에 중위수가 존재한다는 수학적 보장을 바탕으로 평균 O(n) 시간 복잡도를 달성하며, 특히 데이터가 추가될 때 기존 계산 결과를 재활용해 업데이트 비용을 크게 줄인다. 실험 결과는 기존 최적…

저자: Ryan J. Tibshirani

**1. 서론** 중위수는 평균보다 이상치에 강인한 통계량으로, 생물학, 금융, 이미지 처리 등 다양한 분야에서 활용된다. 그러나 중위수 계산은 평균보다 훨씬 느리며, 특히 데이터가 지속적으로 추가·삭제되는 상황에서는 기존 알고리즘이 이전 작업을 재활용하지 못해 비효율적이다. 이러한 문제를 해결하고자 저자는 평균·표준편차를 이용해 데이터 범위를 제한하고, 고정된 구간 수로 데이터를 나누는 **binmedian**과 그 근사 버전 **binapprox**를 제안한다. **2. 기존 알고리즘 – Quickselect** Quickselect는 k번째 작은 원소를 찾는 선택 알고리즘으로, 평균 O(n) 시간과 O(1) 공간을 가진다. 피벗 선택 방식에 따라 성능이 크게 달라지며, 배열을 제자리에서 재배열한다는 점이 업데이트 상황에서 재사용을 방해한다. **3. Binmedian 알고리즘** - **수학적 기반**: 중위수 \(m\)는 평균 \(\mu\)와 표준편차 \(\sigma\) 사이, 즉 \(

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기