자동화 머신러닝의 더러운 범주형 데이터 견고성
초록
본 논문은 고카디널리티와 오염된 문자열을 포함한 ‘더러운’ 범주형 데이터에 대해 기존 AutoML 시스템의 내구성을 평가하고, 형태학적 인코더를 활용한 전처리 파이프라인을 제안한다. GAMA AutoML을 기준으로 실험을 수행해 제안 파이프라인이 정확도와 파이프라인 다양성 측면에서 기존 방법보다 우수함을 확인하였다.
상세 분석
논문은 먼저 AutoML이 실제 현업에서 마주치는 고카디널리티·오탈자·다양한 결측값 표기 등으로 오염된 범주형 특성을 어떻게 처리하는지를 조사한다. 기존 AutoML(예: auto‑sklearn, TPOT, H2O)은 주로 원-핫, 순서형, 혹은 간단한 타깃 인코딩에 의존하는데, 이러한 방법은 차원 폭증, 희소성 증가, 그리고 의미 없는 순서 가정으로 인해 성능 저하를 초래한다. 특히 ‘dirty‑cat’이라 불리는 형태학적 인코더(유사도 인코딩, Min‑Hash, GAP)는 문자열 내부의 서브워드·n‑gram 구조를 활용해 레벨 간 유사성을 수치화함으로써 고카디널리티 문제를 완화한다.
제안 파이프라인은 (1) 자동 타입 추론을 통해 범주형 컬럼을 식별하고, (2) 선택된 형태학적 인코더로 변환한 뒤, (3) 변환된 데이터셋을 기존 AutoML에 그대로 전달한다. 이 과정에서 행 수는 유지되지만 특성 수는 인코더에 따라 증가한다. 논문은 GAMA를 실험 플랫폼으로 삼아 75 %/25 % hold‑out 방식, 1시간 시간 제한, 정확도 최적화를 적용하였다. 실험 결과, 원본 데이터에 대해 GAMA가 평균 68 % 수준의 정확도를 보인 반면, 제안 파이프라인을 적용했을 때 평균 74 %로 6 %p 상승하였다. 또한, AutoML이 자동으로 선택한 파이프라인을 분석한 결과, 형태학적 인코더 적용 후에는 트리 기반 모델(예: RandomForest, XGBoost)이 더 자주 선택되었으며, 전처리 단계에서 차원 축소와 결측값 보정이 활발히 이루어졌다.
이러한 결과는 (1) 더러운 범주형 데이터에 특화된 인코더가 AutoML의 탐색 공간을 유의미하게 개선하고, (2) AutoML이 내부적으로 복잡한 전처리와 모델 선택을 수행할 때도 고품질의 수치 표현이 필수적임을 시사한다. 또한, 형태학적 인코더는 비지도 방식이므로 레이블이 없는 상황에서도 적용 가능하다는 점에서 실용성이 높다. 논문은 향후 연구로 (① 다양한 AutoML 프레임워크에 대한 일반화 검증, ② 인코더와 차원 축소 기법의 공동 최적화, ③ 대규모 실시간 스트리밍 데이터에 대한 적용) 등을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기