교차 검증에서 R² 보정 방법

본 논문은 LOOCV(Leave‑One‑Out Cross‑Validation) 상황에서 전통적인 R² 점수가 과도하게 부정적인 값을 보이는 문제를 지적하고, 훈련 데이터만을 이용해 계산한 평균값을 사용한 새로운 정규화 방식을 제안한다. 제안된 R²_cv는 기존 R²와 단순히 “naive” 모델의 R² 값을 이용한 변환식 R²_cv = (R² – R²_naive) / (1 – R²_naive) 로 표현되며, 데이터 수 n에만 의존하는 R²_nai…

저자: Indre Zliobaite, Nikolaj Tatti

본 논문은 “A note on adjusting R² for using with cross‑validation”이라는 제목으로, 교차 검증, 특히 Leave‑One‑Out Cross‑Validation(LOOCV) 상황에서 결정계수(R²)의 계산 방법에 내재된 문제점을 짚고, 이를 보정하는 새로운 공식과 그 수학적 증명을 제시한다. 1. **배경 및 문제 정의** R²는 모델이 목표 변수의 변동성을 얼마나 설명하는지를 나타내는 지표로, 전통적으로 전체 데이터셋을 대상으로 \(R² = 1 - \frac{\sum (y_i - \hat y_i)^2}{\sum (y_i - \bar y)^2}\) 로 정의된다. 여기서 \(\bar y\)는 전체 데이터 평균이다. 이 정의는 “naive” 기준, 즉 훈련 없이 전체 평균을 고정값으로 예측하는 모델에 대해 R² = 0을 보장한다. 그러나 교차 검증에서는 매 반복마다 훈련 집합이 달라지므로, “naive” 기준도 매번 훈련 집합 평균 \(\bar y_i\)를 사용해야 한다. 기존 R²를 그대로 적용하면 분모에 전체 평균 \(\bar y\)를 사용하게 되며, 이는 훈련 집합 평균과 차이가 나기 때문에 R²가 인위적으로 낮아져 종종 R² < 0이 된다. 이는 모델 성능을 과소평가하는 오류이다. 2. **제안된 교차 검증용 R² 정의** 저자들은 새로운 정규화 분모를 도입한다. \(\bar y_i\)를 “i번째 데이터를 제외한 훈련 집합 평균”으로 정의하고, 교차 검증용 R²를 \

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기