QR 보정으로 최근접 이웃 분할표 검정의 정확도 향상 연구

본 연구는 두 개 이상의 클래스가 존재하는 공간 점 데이터에서 최근접 이웃(contingency)표(NNCT)를 이용해 군집성(분리·연관) 여부를 검정하는 방법론을 심층적으로 재검토한다. NNCT는 각 점을 기준(base)으로 가장 가까운 이웃(NN)의 클래스 라벨을 기록해 2×2(또는 다중 클래스) 교차표를 만든다. 교차표의 셀 빈도 N₍ᵢⱼ₎는 행합 nᵢ(기준 클래스의 점 수)와 열합 Cⱼ(이웃으로 선택된 횟수)로 분해되며, 무작위 라벨링(Random Labeling, RL) 혹은 클래스 독립(Complete Spatial Randomness independence, CSR‑ind) 하에서는 기대값이 행합만을 이용해 계산된다. Dixon(1994, 2002)이 제안한 셀별 Z‑통계량과 전체 χ² 통계량 C는 이러한 기대값과 분산·공분산을 이용한다. 그러나 CSR‑ind 하에서는 Q(공유 이웃 수)와 R(반사 이웃 수)가 고정되지 않은 확률 변수이며, 기존 연구에서는 실제 관측된 Q와 R 값을 그대로 사용해 분산을 계산하였다. 이는 Q와 R에 조건부된 검정통계량을 만든다. 조건부 검정은 이론적으로는 올바르지만, Q와 R가 무작위라는 사실을 반영하지 못해 검정의 정확도에 영향을 줄 수 있다. 이에 저자는 Q와 R의 기대값을 직접 계산하기 어려운 점을 감안해, 대규모 몬테카를로 시뮬레이션을 통해 경험적으로 추정한다. 10⁶ 회의 시뮬레이션에서 n이 200~1000 사이일 때 Q/n≈0.6328, R/n≈0.6211에 수렴함을 확인하였다. 따라서 Q≈0.63 n, R≈0.62 n으로 대체해 무조건적 분산·공분산을 정의하고, 이를 ‘QR‑adjustment’이라 명명한다. QR‑adjust된 분산을 사용해 Dixon의 전체 검정통계량 C를 C_qr으로, 그리고 Ceyhan(2007)이 제안한 세 가지 새로운 검정통계량을 각각 QR‑보정 버전으로 변형한다. 이후 두 종류의 검정(조건부 vs QR‑보정)을 다음 두 측면에서 비교한다. 1. **크기(α‑error) 평가**: CSR‑ind 가정 하에서 5 % 명목 수준을 유지하는지를 확인한다. 시뮬레이션 결과, 두 검정 모두 명목 수준에 근접했으며 QR‑보정이 크기를 크게 개선하지는 않았다. 2. **검정력(power) 평가**: 분리(segregation)와 연관(association) 대안을 설정해 각각 10 %~30 % 정도의 효과 크기를 부여하고, 표본 크기 n=100, 200, 500, 1000에 대해 검정력을 측정했다. 전반적으로 QR‑보정과 조건부 검정 사이의 차이는 미미했으며, 특히 표본이 작을 때는 QR‑보정이 약간 낮은 파워를 보였다. 실제 데이터 적용 사례는 두 가지이다. 첫 번째는 이탄 숲 내 두 나무 종(예: 소나무와 전나무)의 공간 분포를 분석해, 두 종이 서로 섞여 있는지 혹은 군집되는지를 검정하였다. 두 번째는 도시 내 범죄 사건과 비범죄 사건 위치를 이용해, 범죄 사건이 서로 가까이 모여 있는지(분리) 혹은 비범죄 사건과 섞여 있는지(연관)를 검정하였다. 두 사례 모두 조건부 검정과 QR‑보정 검정이 거의 동일한 p‑값을 제공했으며, 연구자는 QR‑보정이 이론적으로는 바람직하지만 실무적 차이는 크지 않다고 결론지었다. 결론적으로, 본 논문은 NNCT 기반 군집성 검정에서 Q와 R의 무조건적 기대값을 경험적으로 추정해 보정하는 절차를 제시하고, 이를 통해 검정통계량의 조건부성을 제거한다는 통계적 엄밀성을 확보한다. 비록 검정력과 크기 측면에서 실질적인 성능 향상이 제한적이지만, 검정통계량의 이론적 기반을 강화하고 향후 더 복잡한 다중 클래스 혹은 비균질 공간 모델에 적용할 수 있는 토대를 제공한다.

QR 보정으로 최근접 이웃 분할표 검정의 정확도 향상 연구

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기