데이터셋 효과크기와 모델 성능·샘플 수 충분성 관계 탐구
초록
**
본 연구는 UCI Adult 데이터셋을 이용해 특징들의 통계적 효과크기(Cohen d, Odds Ratio)가 모델 정확도와 학습곡선 수렴 속도에 미치는 영향을 실험적으로 검증한다. 66개의 500‑샘플 서브셋과 다양한 피처 조합, 네 종류의 분류기(LR, DT, RF, NN)를 사용했지만, 효과크기와 성능·수렴 속도 사이에 일관된 상관관계는 발견되지 않았다. 따라서 효과크기만으로 데이터 충분성을 사전 판단하기는 어렵다는 결론을 제시한다.
**
상세 분석
**
이 논문은 머신러닝 모델 학습에 앞서 데이터 양과 질을 정량화하려는 시도로, 전통적인 통계학의 효과크기 지표를 활용한다는 점에서 흥미롭다. 저자는 연속형 피처에 Cohen d, 범주형 피처에 Odds Ratio를 적용해 각 서브셋의 평균 효과크기를 산출하고, 이를 네 가지 분류 모델의 정확도, 정밀도, 재현율, F1‑score와 비교한다. 실험 설계는 크게 두 축으로 나뉜다. 첫 번째는 동일 피처 집합을 유지하면서 행을 무작위로 섞어 66개의 서브셋을 만든 후, 효과크기와 성능 간의 Pearson·Spearman 상관을 구하는 것이고, 두 번째는 효과크기가 큰 피처를 제거하거나 라벨을 바꾸어 학습곡선의 기울기와 훈련·검증 오차 차이의 변화를 관찰한다.
결과는 전반적으로 낮은 상관계수(r≈0.1~0.2)와 높은 p‑value를 보이며, 효과크기가 모델 성능을 예측한다는 가설을 기각한다. 특히, 효과크기가 큰 피처를 제외했을 때 성능 저하가 일관되지 않으며, 학습곡선의 수렴 속도 역시 효과크기와 무관한 로그 형태를 나타낸다. 이는 효과크기가 데이터의 “분리도”를 나타내지만, 실제 모델이 활용하는 비선형 상호작용이나 고차원 구조를 충분히 포착하지 못한다는 점을 시사한다.
방법론적 한계도 존재한다. 평균 효과크기를 하나의 스칼라로 축소하는 과정에서 피처 간 상관관계와 다중공선성이 무시되었으며, UCI Adult 하나의 데이터셋에만 의존함으로 일반화 가능성이 제한된다. 또한, 500‑샘플 서브셋이라는 비교적 작은 규모와 라벨을 바꾸는 실험이 실제 도메인 별 데이터 불균형 상황을 충분히 반영하지 못한다. 모델 선택 역시 전통적인 LR·DT·RF·NN에 국한돼, 대규모 딥러닝 모델이나 앙상블 기법에서의 효과크기 관계는 검증되지 않았다.
종합하면, 통계적 효과크기가 데이터 충분성을 사전 판단하는 단일 지표로 사용되기엔 정보 손실이 크고, 머신러닝 모델의 복잡한 학습 역학을 설명하기에 부족하다. 향후 연구는 다변량 효과크기(예: Mahalanobis 거리), 정보이론 기반 메트릭(예: Mutual Information)과 결합하거나, 베이지안 샘플링·학습곡선 시뮬레이션을 통해 보다 정교한 사전 평가 프레임워크를 구축할 필요가 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기