교차검증에서 최적 보류 비율 찾기
초록
본 논문은 교차검증의 보류(hold‑out) 크기, 즉 폴드 수 K를 데이터와 모델에 맞는 최적값으로 선택하는 이론적 프레임워크를 제시한다. 평가 불확실성을 명시적으로 페널티화하고, 대칭·비대칭 오류에 대한 유한표본 분산 상한을 도출해 손실‑분산 균형을 최대화하는 유틸리티 함수를 정의한다. 실험에서는 선형 회귀와 랜덤 포레스트, 고차원 유전체 데이터에 적용해 K 선택이 결과 해석에 미치는 영향을 보여준다.
상세 분석
이 연구는 교차검증이 단순히 모델 성능을 추정하는 도구가 아니라 과학적 결론을 도출하는 과정에 깊이 관여한다는 점을 강조한다. 기존 실무에서는 80/20, K=5, K=10 등 관행적인 비율을 그대로 사용하지만, 훈련 데이터가 늘어날수록 모델 편향은 감소하고, 테스트 데이터가 줄어들수록 성능 추정의 분산은 증가한다는 전형적인 편향‑분산 트레이드오프가 존재한다. 저자들은 이를 정량화하기 위해 두 가지 오류 가정(대칭·비대칭)을 고려한 유한표본 분산 표현을 도출한다.
대칭 오류(예: 정규분포)에서는 정규화된 손실의 분산이 정확히 ( \frac{1}{4m^{2}}\sum_{j\in C_k}\sigma_j^{2}\bigl(\hat f_{-k}(x_j)-f(x_j)\bigr)^{2}) 로 나타나며, 동분산인 경우는 이 식이 정확한 값이 된다. 비대칭 오류(예: 감마분포)에서는 상수 4가 16으로 확대된 보수적인 상한을 제공한다. 이러한 결과는 폴드 간 상관관계가 존재하더라도 단일 폴드의 분산 상한이 전체 K‑fold 평균의 상한을 초과하지 않음을 보장한다.
다음 단계에서는 손실‑분산 균형을 평가하기 위해 평균‑분산 효용 함수를 도입한다. 효용은 (-\bigl(\text{예상 손실} + \text{분산}\bigr)) 로 정의되며, 여기서 분산 항은 앞서 도출한 상한에 비례한다. 효용을 m(테스트 샘플 수)의 함수로 표현하면, m이 작을수록 모델 정확도가 높아지지만 분산이 커져 효용이 감소하고, m이 클수록 분산은 감소하지만 모델 편향이 커져 다시 효용이 감소한다. 최적 m는 효용을 최대화하는 지점이며, 이는 곧 K = N/m 로 변환된다.
실제 적용을 위해 저자들은 세 단계의 앵커 포인트(LOO, LMOCV, 5‑fold)에서 손실을 측정하고, 로그 형태의 보간함수로 손실 곡선을 추정한다. 이후 σ²(불가피한 노이즈) 값을 가정하거나 추정해 분산 곡선을 계산하고, 두 곡선을 합산해 효용을 구한다. σ²가 크면 분산 페널티가 커져 더 큰 테스트 셋(작은 K)이 선호되고, σ²가 작으면 훈련 데이터 활용을 극대화하기 위해 작은 테스트 셋(큰 K)이 선호된다.
실험에서는 선형 회귀와 랜덤 포레스트를 다양한 도메인(예: 의료, 경제) 데이터에 적용하고, 고차원 유전체 데이터에서는 LASSO 기반 모델을 사용했다. 결과는 (i) 최적 K가 데이터와 모델에 따라 크게 달라짐, (ii) σ² 가정에 따라 최적 K가 변동, (iii) 최적 K 선택에 따라 변수 선택·해석이 실질적으로 달라짐을 보여준다. 특히 유전체 분석에서는 σ²를 크게 가정하면 K=5가 최적이지만, 노이즈를 낮게 가정하면 K=10 혹은 K=20이 더 좋은 결과를 낸다.
이 프레임워크는 기존의 “하나의 K를 고정한다”는 관행을 대체하고, 연구자가 자신의 불확실성 허용 수준을 명시적으로 설정하도록 유도한다. 또한, 효용 함수에 다른 위험 척도(예: CV‑t‑test, 베이지안 사후 확률)를 삽입하면 다양한 의사결정 상황에 맞게 확장 가능하다.
댓글 및 학술 토론
Loading comments...
의견 남기기