기록 데이터 기반 Weibull 적합도 검정
초록
본 논문은 기록(record) 데이터에 적용 가능한 Weibull 분포의 적합도 검정 방법을 제시한다. Kolmogorov‑Smirnov·Cramér‑von Mises 통계량을 기록 데이터에 맞게 변형하고, 좌측 꼬리의 민감도를 높인 새로운 가중 검정통계량 (D_{S_n})을 도입한다. 또한 Weibull 모형이 지수 모형의 특수 경우임을 이용해 일반화된 우도비(GLR) 검정을 설계한다. 통계량의 임계값은 10⁵ 회의 몽테‑카를로 시뮬레이션으로 추정했으며, 실제 전화통화 간격 데이터에 적용해 Weibull 모형이 적합함을 확인한다.
상세 분석
이 연구는 기록 데이터라는 특수한 관측 방식에 초점을 맞춘다. 기록 데이터는 전체 표본이 아닌, 이전 관측값보다 작거나 큰 값만을 순차적으로 저장하는 방식으로, 관측 횟수는 랜덤하고 실제 데이터 양이 제한적이다. 이러한 특성 때문에 전통적인 적합도 검정(예: KS, C‑M) 통계량을 그대로 적용하면 검정력이 크게 저하될 위험이 있다. 저자는 먼저 Weibull 분포 (W(\alpha,\sigma))의 최대우도추정(MLE)을 기록 데이터의 로그우도식(식 8)으로부터 도출하고, (\alpha)에 대한 비선형 방정식(식 10)을 수치해석으로 해결한다.
다음으로 적합도 검정통계량을 재정의한다. 기존 KS 통계량 (D_n=\sup_x|\hat F(x)-F_0(x)|)와 C‑M 통계량 (W_n^2=\int(\hat F-F_0)^2 dF_0)를 기록 데이터의 비모수 최대우도 추정(NPMLE) (\hat{\bar F}(x))에 기반해 식 13‑15 형태로 변형한다. 특히 좌측 꼬리(작은 값)에서의 차이를 강조하기 위해 Anderson‑Darling 형태를 차용한 가중 통계량 (D_{S_n})을 제안했으며, 이는 (\frac{1}{F_0(x)}) 가중을 사용해 작은 확률 영역에서의 오차를 확대한다.
통계량들의 귀무분포는 기록 데이터가 Weibull(1,1) 표준형으로 변환될 때 파라미터 (\alpha,\sigma)에 독립적임을 증명(정리 3.2)한다. 따라서 임계값은 파라미터를 추정한 뒤 표준 Weibull에 대해 시뮬레이션만 수행하면 된다. 저자는 100 000개의 기록 표본을 생성해 (D_n, W_n^2, D_{S_n})의 백분위수를 표 1에 제시했으며, 표본 크기 (n)에 따라 임계값이 어떻게 변하는지 상세히 보고한다.
또한 Weibull이 (\alpha=1)일 때 지수분포와 동일함을 이용해, 지수모형((H_0)) 대비 Weibull 대안((H_1))을 검정하는 일반화 우도비(GLR) 검정을 제시한다. 식 19‑21에서 GLR 통계량 (\Lambda)를 유도하고, (-2\log\Lambda)가 대표본 한계에서 (\chi^2_1) 분포를 따른다는 근사 결과를 제시한다.
실제 데이터 적용에서는 48개의 전화통화 간격을 이용해 완전 데이터와 기록 데이터를 각각 분석한다. 완전 데이터 기반 MLE (\hat\sigma_C=0.934)와 기록 데이터 기반 MLE (\hat\sigma_0=1.022), Weibull MLE (\hat\alpha=1.1815, \hat\sigma=0.8181)을 구하고, 제안된 세 통계량을 계산한다((D_n=0.6979, W_n^2=5.5140, D_{S_n}=8.8604)). 표 1의 5% 임계값과 비교했을 때 모두 귀무가설을 기각하지 않아 Weibull 모델이 충분히 적합함을 확인한다.
전체적으로 이 논문은 기록 데이터라는 제한된 정보 환경에서도 Weibull 적합도를 정량적으로 평가할 수 있는 체계적인 방법론을 제공한다. 기존 그래프 기반 검정의 주관성을 보완하고, Monte‑Carlo 기반 임계값 제공으로 실무 적용성을 높였다. 다만 MLE 계산이 비선형 방정식에 의존해 수치해석이 필요하고, 표본 크기가 매우 작을 경우 시뮬레이션 기반 임계값의 정확도가 떨어질 수 있다는 점은 향후 연구 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기