빅데이터와 소셜 네트워크 분석을 활용한 텔레콤 고객 이탈 예측 모델
초록
본 연구는 시리아텔의 9개월 치 대규모 고객 데이터를 Spark 기반 빅데이터 환경에서 처리하고, 머신러닝과 소셜 네트워크 분석(SNA) 특징을 결합한 이탈 예측 모델을 개발한다. XGBoost 알고리즘을 적용해 AUC 93.3%를 달성했으며, SNA 특징을 포함함으로써 기존 84% 수준에서 크게 향상된 결과를 얻었다.
상세 분석
이 논문은 텔레콤 분야에서 고객 이탈을 사전에 탐지하기 위한 실용적인 프레임워크를 제시한다. 데이터는 시리아텔이 제공한 원시 로그와 고객 프로파일을 9개월 동안 수집한 것으로, 규모가 수백만 레코드에 달한다. 저자는 Apache Spark를 이용해 분산 처리 파이프라인을 구축했으며, 데이터 정제, 결측치 보정, 범주형 변수 인코딩, 시간 기반 파생 변수 생성 등 전형적인 빅데이터 전처리 과정을 상세히 기술한다. 특히, 기존 연구에서 간과되기 쉬운 ‘고객 간 관계’를 모델에 반영하기 위해 소셜 네트워크 분석을 도입했다. 고객 통화·문자·SNS 연동 로그를 그래프 형태로 변환하고, 노드 중심성(degree, betweenness, closeness)과 커뮤니티 감지 결과를 특징으로 추출하였다. 이러한 SNA 특징은 고객이 속한 네트워크 내에서의 영향력과 유사 고객군의 행동 패턴을 정량화한다는 점에서 의미가 크다. 모델 학습 단계에서는 Decision Tree, Random Forest, GBM, XGBoost 네 가지 알고리즘을 비교했으며, 하이퍼파라미터 튜닝은 Grid Search와 Cross‑Validation을 병행했다. 최종적으로 XGBoost가 가장 높은 AUC 93.3%를 기록했으며, SNA 특징을 포함하지 않은 베이스라인 모델은 AUC 84%에 머물렀다. 이는 네트워크 기반 정보가 이탈 예측에 강력한 보조 신호임을 입증한다. 또한, 변수 중요도 분석을 통해 요금제 변화, 서비스 이용 빈도, 그리고 네트워크 중심성이 이탈 가능성을 설명하는 주요 요인임을 확인했다. 실험은 동일한 Spark 클러스터에서 재현 가능하도록 코드와 설정을 공개했으며, 모델 배포 시 실시간 스코어링을 위한 스트리밍 파이프라인 설계 방안도 제시한다. 전체적인 접근은 데이터 규모, 특징 설계, 모델 선택, 평가 지표 모두를 체계적으로 연결함으로써 산업 현장에서 바로 적용 가능한 솔루션을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기