베이지안 K최근접 이웃의 불확실성 과소평가

본 연구는 K‑최근접 이웃(KNN) 분류에서 튜닝 파라미터 K의 선택에 내재된 불확실성을 베이지안 방식으로 반영하려는 시도인 베이지안 K‑최근접 이웃(BKNN)의 불확실성 정량화 능력을 평가한다. Holmes와 Adams(2002)는 BKNN이 K에 대한 사후 분포를 MCMC로 추정함으로써 모델 성능(오분류율)에서 기존 KNN을 능가한다는 결론을 제시했지만, 그들이 제시한 불확실성 평가가 충분히 검증되지 않았다. 논문은 먼저 BKNN의 핵심인 의사가능도(pseudo‑likelihood) 함수를 소개한다. 이 함수는 각 관측치 i에 대해 exp{(β/K)∑_{j∈N(x_i,K)} I(y_j = y_i)} 형태로 정의되며, K와 β를 베이지안 파라미터로 두어 사후 분포 p(β,K|X,Y)∝p(Y|X,β,K)p(β)p(K) 를 MCMC로 샘플링한다. 여기서 K는 1부터 n까지 균등 사전, β는 양의 실수에 대한 비정보 사전을 사용한다. 실험 설계는 두 클래스가 각각 두 개의 2차원 정규분포 혼합으로 구성된 합성 데이터를 사용한다. 각 실험마다 훈련 데이터 250개를 새로 생성하고, 고정된 테스트 포인트 160개(그리드 형태)를 대상으로 θ_n+1 = Pr(y=1|x) 를 추정한다. BKNN은 사후 평균을 점 추정값으로, 2.5%와 97.5% 백분위수를 구간 추정값으로 사용한다. 전통적인 KNN은 교차검증으로 최적 K를 선택하고, 로지스틱 변환(β̂를 추정 후 ˜θ_KNN을 변환)으로 점 추정값을 만든 뒤, 500번 부트스트랩을 통해 구간을 만든다. 점 추정 결과는 두 방법이 거의 동일한 평균 오차와 분산을 보이며, 실제 θ와의 차이가 작다. 그러나 구간 추정에서는 큰 차이가 드러난다. BKNN 구간의 평균 커버리지는 70% 이하로, 명목상의 95%를 크게 밑돌았다. 부트스트랩 KNN 구간은 85~90% 수준으로 더 신뢰할 수 있었다. 구간 길이 비교에서도 BKNN 구간은 표준편차의 약 2배에 불과했으며, 이는 정규 근사 하 4배가 기대되는 길이와 절반 수준이다. 즉, BKNN은 불확실성을 과소평가하고 있다. 저자들은 이러한 현상의 원인을 의사가능도가 이웃들의 위치 불확실성을 무시하고, 오직 이웃 수(K)만을 고려하기 때문이라고 설명한다. 이는 공간 상호작용 모델에서 흔히 나타나는 문제이며, 기존 연구에서도 의사가능도 기반 추정이 표준오차를 과소평가한다는 보고가 있다. 따라서 BKNN이 제공하는 사후 구간은 절대적인 불확실성 평가에는 부적합하지만, 상대적인 불확실성 비교(예: 두 계좌의 사기 위험 비교)에는 여전히 유용할 수 있다. 결론적으로, BKNN은 K에 대한 불확실성을 반영하려는 시도는 성공했지만, 전체 모델 불확실성을 정확히 포착하지 못한다. 향후 연구는 전체 가능도 모델을 도입하거나, 의사가능도 기반 추정의 표준오차를 보정하는 방법을 모색해야 한다.

베이지안 K최근접 이웃의 불확실성 과소평가

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기