표본 크기와 엔트로피 기반 이산화의 상호작용 실증적 고찰
초록
본 연구는 엔트로피 기반 이산화 기법인 CAIM을 사용했을 때, 표본 크기에 따라 모델 성능 평가에 발생하는 편향을 실험적으로 조사하였다. 교차 검증 내부와 외부에서 이산화를 수행했을 때의 차이를 비교하고, 7개의 UCI 데이터셋과 다양한 학습 알고리즘을 활용해 117,000여 개의 모델을 구축하였다. 결과는 표본 크기가 작아질수록 내부 이산화가 과대 optimistic bias를 유발한다는 것을 보여주며, 변수 수와 유형이 이 현상에 영향을 미친다는 점을 제시한다.
상세 분석
본 논문은 데이터 마이닝 과정에서 연속형 변수를 이산화하는 단계가 모델 평가에 미치는 영향을 정량적으로 분석한다는 점에서 의의가 크다. 특히, 엔트로피 기반 이산화 기법인 CAIM을 선택한 이유는 그 알고리즘이 클래스와 속성 간 상호 의존성을 최대화하도록 설계돼, 이산화 구간을 데이터에 최적화한다는 특성을 가지고 있기 때문이다. 그러나 이러한 최적화 과정이 표본 크기에 민감하게 반응할 가능성은 기존 연구에서 충분히 검증되지 않았다.
연구자는 7개의 서로 다른 특성을 가진 UCI 데이터셋(예: Iris, Wine, Adult 등)을 선정하고, 각 데이터셋에 대해 표본 크기를 10%, 30%, 50%, 70%, 100%로 단계적으로 축소하였다. 각 표본 크기 수준에서 두 가지 이산화 전략을 적용한다. 첫 번째는 교차 검증 폴드 내부에서 각각 독립적으로 이산화를 수행하는 ‘내부 이산화(in‑fold discretization)’이며, 두 번째는 전체 학습 데이터를 한 번만 이산화하고 그 결과를 모든 폴드에 재사용하는 ‘외부 이산화(out‑of‑fold discretization)’이다.
모델링 단계에서는 로지스틱 회귀, 결정 트리, k‑최근접 이웃, 서포트 벡터 머신 등 5가지 대표적인 학습 알고리즘을 사용했으며, 각 조합마다 10번의 독립 반복을 수행해 결과의 안정성을 확보하였다. 성능 평가는 정확도, F1‑점수, AUC 등 다중 지표를 사용했으며, 특히 편향 정도를 파악하기 위해 내부와 외부 이산화 결과를 직접 비교하였다.
통계 분석 결과, 표본 크기가 30% 이하로 감소할 경우 내부 이산화가 외부 이산화에 비해 평균 3~7%p(percentage point) 정도 높은 정확도를 보였다. 이는 실제 모델 일반화 능력보다 과대 평가된 결과이며, 특히 변수 수가 많고 연속형 변수가 다수 포함된 데이터셋에서 편향이 크게 나타났다. 이러한 현상은 ‘차원의 저주’를 이산화 단계까지 확장시킨 것으로 해석할 수 있다. 즉, 고차원 공간에서 이산화 구간을 최적화하려 하면 작은 표본에 과도하게 맞춰지는 경향이 생겨, 교차 검증 내에서 자체적으로 과적합이 발생한다는 것이다.
또한, 알고리즘 별로 편향 정도가 차이를 보였다. 트리 기반 모델은 이산화 구간 자체가 트리 분할에 직접 활용되므로 편향이 가장 크게 나타났으며, 반면 SVM과 로지스틱 회귀는 연속형 특성을 그대로 활용하는 경우가 많아 상대적으로 편향이 적었다. 그러나 모든 알고리즘에서 표본 크기가 충분히 클 때(≥70%)는 내부·외부 이산화 간 차이가 통계적으로 유의미하지 않음이 확인되었다.
연구자는 이러한 결과를 바탕으로 실무적 가이드라인을 제시한다. 첫째, 표본이 충분히 크지 않은 상황에서는 반드시 교차 검증 폴드 내부에서 이산화를 수행하고, 이때 이산화 구간을 제한하거나 사전 정의된 구간을 사용하는 것이 바람직하다. 둘째, 고차원 데이터에서는 차원 축소(예: PCA, 변수 선택) 후 이산화를 적용하거나, 이산화 단계에서 최소 구간 수를 제한해 과적합 위험을 감소시켜야 한다. 셋째, 모델 비교 연구에서는 이산화 전략을 명시적으로 기술하고, 가능한 경우 외부 이산화와 내부 이산화 모두를 실험해 편향 정도를 보고해야 한다.
결론적으로, 표본 크기와 이산화 방법의 상호작용은 모델 성능 평가에 중요한 영향을 미치며, 특히 작은 표본과 고차원 데이터에서 내부 이산화가 낙관적인 편향을 초래한다는 점을 실증적으로 입증하였다. 이는 기존 문헌에서 주장만 있었던 ‘외부 이산화가 편향을 방지한다’는 가설을 부분적으로 정당화하면서도, 실제 적용 시에는 상황에 맞는 이산화 전략 선택이 필수적임을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기