통신사 고객 이탈 예측과 재구매 회복 모델
초록
본 논문은 실제 통신사 데이터베이스를 활용해 단기 이탈 고객과 재이용 고객을 예측하는 방법을 제시한다. 데이터 스키마 분석 후 서비스 이용량, 결제 패턴 등 수백 개의 원시·파생 특성을 생성하고, 언밸런스 문제를 언샘플링으로 보정하였다. 다양한 결정트리 기반 머신러닝 알고리즘을 비교한 결과 RandomForest와 SimpleCart가 높은 정확도를 보였으며, 특히 최근 2개월 다운로드·업로드량, 평균 이용량, 결제 관련 변수가 이탈 예측에 핵심적인 역할을 하는 것으로 확인되었다.
상세 분석
논문은 대규모 실무 데이터셋을 기반으로 단기 이탈(Churn)과 재구매(Win‑Back) 예측 모델을 구축하는 전 과정을 체계적으로 제시한다. 먼저 고객 프로필, 계약 정보, 월별 트래픽 및 결제 로그 등 다차원 데이터를 정형화하고, 스키마를 상세히 파악한다. 특성 엔지니어링 단계에서는 기존 비즈니스 인사이트를 반영한 원시 변수와 함께, 최근 2개월·3개월 평균 다운로드·업로드량, 월별 결제 금액 변동, 요금제 대비 실제 이용량 비율 등 파생 변수를 설계하였다. 데이터 불균형 문제는 이탈 고객이 소수인 점을 감안해 언샘플링(under‑sampling) 기법으로 다수 클래스(비이탈)를 축소함으로써 균형 잡힌 학습 데이터를 확보하였다. 모델링에서는 DecisionTree, RandomForest, SimpleCart, GradientBoosting 등 다양한 트리 기반 알고리즘을 적용하고, 교차 검증을 통해 하이퍼파라미터를 튜닝하였다. 성능 평가는 정확도 외에도 정밀도·재현율·F1‑score를 종합적으로 고려했으며, RandomForest와 SimpleCart가 가장 높은 정밀도와 안정적인 재현율을 기록했다. 변수 중요도 분석 결과, 최근 2개월 다운로드·업로드량, 평균 이용량, 결제 지연 횟수, 요금제 변경 이력 등이 상위 15개 드라이버에 포함돼, 서비스 이용과 결제 행동이 이탈 예측에 결정적인 영향을 미침을 확인했다. 또한, 재구매 고객에 대해서는 이전 이탈 시점의 이용량 급감과 결제 누락 패턴이 회복 가능성을 시사하는 중요한 신호로 작용했다. 전체적으로 데이터 전처리·특성 설계·불균형 처리·모델 선택·평가까지 일관된 파이프라인을 구축함으로써, 실무 적용 가능성이 높은 예측 프레임워크를 제시하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기