통신 고객 세분화와 이탈 예측을 위한 머신러닝 통합 분석

본 연구는 이동통신 시장의 높은 경쟁성과 고객 이탈(Churn) 문제를 해결하기 위해, 데이터 마이닝과 머신러닝을 결합한 고객 세분화 및 이탈 예측 모델을 설계·실험하였다. 연구 대상은 아일랜드의 스타트업 통신사 iD Mobile이며, 2015년~2016년 16개월 동안 수집된 청구 데이터(26 717건, 86개 속성)를 활용한다. 데이터는 고객의 청구 내역, 계약 기간, 사용량, 인구통계(연령, 성별, 거주 카운티) 등으로 구성되며, 일부 속성은 결측·오류가 존재해 정제 과정을 거쳤다. 정제 단계에서 연구진은 다중 테이블 결합 시 발생하는 논리적 오류를 검증하기 위해 실제 고객 관리 시스템과 교차 확인했으며, 시스템이 한 번에 처리할 수 있는 셀 수(70 000셀) 제한 때문에 보고서를 여러 개로 나누어 작업하였다. 이후 파생 변수를 11개 추가했는데, 이는 원시 변수의 평균값(최근 3개월·6개월), 비율(3개월 평균 대비 전체 평균) 등 실세계 행동을 반영하도록 설계되었다. 파생 변수는 특히 고객의 지출 패턴과 서비스 이용 지속성을 정량화하는 데 핵심 역할을 했다. 모델링은 베이지안 확률 프레임워크 안에 C.5 의사결정트리 알고리즘을 삽입하는 방식으로 진행되었다. C.5는 기존 C4.5와 유사한 분할 기준을 사용하지만, 베이지안 사전 확률을 결합해 각 분할의 신뢰도를 보정한다. 결과적으로 ‘if‑then’ 형태의 규칙이 도출되었으며, 예를 들어 “연령 25‑44세, 최근 3개월 평균 청구액 > €30, 계약 기간 ≥ 12개월인 경우 이탈 확률 0.12”와 같은 구체적인 세분화 룰을 제공한다. 주요 변수로는 연령대(5구간), 거주 카운티, 서비스 이용 일수, 총 청구액(전월 이월 제외), 청구 횟수, 평균 청구액 등이 포함되었다. 특히 ‘총 청구액(전월 이월 제외)’은 각 월의 청구액에서 미납·이월 금액을 차감해 실제 매출을 반영하고, 이를 청구 횟수로 나누어 평균 청구액을 산출함으로써 고객 가치를 정량화했다. 모델 성능 평가는 혼동 행렬을 이용해 지역별 예측 비용을 분석했으며, 더블린·코크·워터포드·메스와 같은 지역에서 오류 비용이 상대적으로 높게 나타났다. 이는 해당 지역 데이터의 불완전성(주소 입력 오류, Eircode 미기입) 때문이며, 향후 데이터 정제와 추가 변수(예: 사용량 패턴) 도입이 필요함을 시사한다. 베이지안 모델 내부에 ‘튜닝 파라미터’를 도입해 이탈 위험도와 고객 선호 요금제 매칭을 동시에 최적화하였다. 이 파라미터를 조정하면 특정 고객군에 대해 높은 이탈 확률을 보이면서도 고가 요금제 전환 가능성이 높은 경우, 맞춤형 프로모션(예: 데이터 추가 제공, 할인 쿠폰)을 제안해 마케팅 비용을 최소화하면서 이탈을 방지할 수 있다. 연구 결과는 두 가지 주요 기여를 가진다. 첫째, 베이지안 의사결정트리 기반 세분화가 기존 CRM에서 흔히 사용하는 단순 클러스터링보다 해석 가능성이 높고, 비즈니스 담당자가 규칙을 직접 이해·수정할 수 있다. 둘째, 파생 변수 설계와 튜닝 파라미터를 통해 이탈 예측 정확도를 향상시켜, 비용 효율적인 마케팅 전략 수립이 가능함을 입증했다. 하지만 연구는 한 기업·한 국가에 국한된 데이터셋을 사용했으며, 데이터 정합성 문제와 시스템 제한(셀 수 한계) 등 실무적 제약이 존재한다. 향후 연구에서는 다국가·다기업 데이터를 활용한 모델 일반화 검증과, 실시간 스트리밍 데이터(통화 CDR, 앱 사용 로그)를 포함한 확장된 특성 집합을 적용해 모델의 견고성을 높이는 방향이 제시된다.

통신 고객 세분화와 이탈 예측을 위한 머신러닝 통합 분석

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기