스텝와이즈 회귀를 위한 적응형 더미 인코딩
초록
SplitWise는 단계별 회귀에 자동으로 임계값 기반 이진 변수를 추가하는 프레임워크이다. 얕은 결정트리를 이용해 수치형 예측변수를 1‑2개의 구간으로 나누고, AIC·BIC 기준으로 변환이 모델 적합도를 개선할 때만 적용한다. iterative와 univariate 두 모드가 제공되며, R 패키지로 구현돼 기존 stepwise, LASSO·Ridge 등과 비교했을 때 더 간결하고 해석 가능한 모델을 만든다.
상세 분석
본 논문은 전통적인 선형 회귀의 해석 가능성은 유지하면서 비선형·임계값 효과를 포착하고자 하는 실무적 필요에 주목한다. 이를 위해 저자들은 “SplitWise”라는 새로운 알고리즘을 설계했으며, 핵심 아이디어는 수치형 변수에 대해 얕은 결정트리(rpart, 최대 깊이 2)를 적용해 최적의 분할점(s)을 찾고, 해당 분할을 0/1 더미 변수로 변환하는 것이다. 변환 여부는 AIC 혹은 BIC와 같은 정보 기준을 사용해 모델 적합도와 복잡도 사이의 트레이드오프를 정량화한다.
알고리즘은 두 가지 작동 모드를 제공한다.
- Iterative Mode: 전통적인 stepwise 절차(전진, 후진, 양방향)와 결합해 현재 모델에 포함된 변수들을 고려하면서 후보 변수의 선형 형태와 더미 변환 형태를 동시에 평가한다. 각 후보에 대해 최적 분할을 찾고, 해당 변환을 적용했을 때 AIC/BIC가 감소하면 모델에 추가하거나 기존 변수를 교체한다. 이 과정은 더 이상 개선이 없을 때까지 반복된다.
- Univariate Mode: 모든 변수에 대해 독립적으로 네 가지 후보(null, 선형, 단일‑split 더미, 이중‑split 더미)를 평가한다. 각 후보의 AIC/BIC를 계산하고 최적 형태를 선택한다. 이후 선택된 변수들을 일반적인 stepwise 절차에 넣어 최종 모델을 구성한다.
두 모드 모두 변환된 변수는 최대 두 개의 더미 변수(단일‑split 또는 이중‑split)로 제한해 과도한 파라미터 증가를 방지한다. 또한 rpart의 복잡도 파라미터(cp)를 활용해 과적합을 억제한다는 점이 설계상의 강점이다.
소프트웨어 구현 측면에서 저자들은 R 패키지 “SplitWise”를 공개했으며, splitwise() 함수 하나로 전체 파이프라인을 수행한다. 외부 의존성은 base R과 rpart뿐이며, 모델 객체는 변환 메타데이터(분할값, 더미 정의)와 함께 summary() 메서드로 직관적으로 출력된다. 이는 기존 stepwise와 LASSO 등과 비교했을 때 사용 장벽을 크게 낮춘다.
실험에서는 합성 데이터와 다섯 개 이상의 실제 회귀 데이터셋(예: mtcars, Boston housing 등)을 사용해 비교 분석을 수행했다. 평가 지표는 RMSE, MAE, Adjusted R², AIC, BIC, 선택된 변수 수 등이다. 결과는 대부분의 경우 SplitWise가 동일하거나 더 낮은 AIC/BIC를 기록하면서 변수 수는 기존 stepwise보다 20‑30% 감소했으며, 예측 정확도(RMSE, MAE)도 LASSO·Ridge와 동등하거나 약간 우수했다는 점을 보여준다. 특히 비선형 관계가 명확히 존재하는 데이터에서 더미 변환이 큰 효과를 발휘했다.
한계점으로는 (1) 깊이 2 이상의 복잡한 비선형 패턴을 포착하기엔 제한적이며, (2) 변수 간 상호작용을 직접 모델링하지 않으므로 다중 임계값 효과가 얽힌 경우 성능 저하 가능성이 있다. 또한 AIC/BIC 기반 선택은 샘플 수가 작을 때 변환 과정을 과도하게 억제할 위험이 있다. 향후 연구에서는 다중 분할, 상호작용 전용 더미 생성, 베이지안 모델 평균화와 결합한 확장판을 제안하고 있다.
전반적으로 SplitWise는 “선형 회귀 + 자동 임계값 더미”라는 직관적인 아이디어를 체계화하고, 정보 기준을 통해 변환을 선택함으로써 해석 가능성과 예측 성능 사이의 균형을 실용적으로 달성한 점이 가장 큰 공헌이다.
댓글 및 학술 토론
Loading comments...
의견 남기기