교차검증 기반 서브배깅 일반화오차 추정
초록
본 논문은 서브배깅(서브샘플링을 이용한 앙상블) 추정기의 일반화오차를 교차검증으로 추정할 때 적용 가능한 새로운 농축 부등식을 제시한다. 손실 함수와 예측기 클래스의 VC 차원에 관계없이 적용 가능하며, LOO, k‑fold, hold‑out, leave‑ν‑out 등 다양한 교차검증 스킴을 포괄한다. 결과적으로 Hoeffding형 상한과 Vapnik형 상한 중 최소값을 이용한 확률적 오차 한계를 얻어, 학습 샘플이 작아도 상한이 1보다 작게 유지된다. 또한 서브배깅을 수행하는 실용적인 규칙도 제시한다.
상세 분석
이 논문은 서브배깅(subagging)이라는 기법을 교차검증(cross‑validation)과 결합하여, 일반화오차의 추정 정확도를 이론적으로 보장하는 새로운 농축(concentration) 부등식을 도출한다. 기존 연구들은 주로 단일 학습기 혹은 배깅(bagging) 전체에 대한 일반화오차를 다루었지만, 서브배깅은 각 베이스 학습기를 전체 데이터가 아닌 무작위 하위 샘플에 대해 학습시키고, 이를 평균화함으로써 계산 효율성과 변동성 감소를 동시에 달성한다. 그러나 서브배깅의 경우, 학습 데이터의 하위 샘플링 비율이 일반화오차에 미치는 영향을 정량화하기 어려웠다.
논문은 먼저 Dudoit와 van der Laan(2003)의 형식을 약간 일반화하여, 교차검증 절차를 임의의 인덱스 집합 𝒱⊂{1,…,n}에 대한 훈련/검증 분할로 모델링한다. 여기서 n은 전체 학습 샘플 크기이며, 𝒱의 크기 ν는 LOO(ν=1), k‑fold(ν=n/k), hold‑out(ν=αn) 등 다양한 경우를 포함한다. 이 일반화된 프레임워크 하에서, 서브배깅 추정기 (\hat f^{(B)})는 B개의 무작위 하위 샘플에 대해 각각 학습된 베이스 추정기 (\hat f_b)의 평균으로 정의된다.
핵심 이론적 기여는 두 종류의 농축 부등식을 동시에 얻는 것이다. 첫 번째는 Hoeffding‑type 부등식으로, 손실 함수가
댓글 및 학술 토론
Loading comments...
의견 남기기