모바일 데이터로 보는 고객 성별·연령 예측 모델
초록
본 연구는 시리아텔의 18,000명 고객 CDR, CRM, 청구 데이터를 활용해 성별과 연령을 예측하는 머신러닝 파이프라인을 구축하였다. 빅데이터 처리 환경에서 여러 알고리즘을 비교한 결과, 성별 예측 정확도 85.6%, 연령 예측 정확도 65.5%를 달성하였다.
상세 분석
본 논문은 이동통신 분야에서 고객의 실제 이용자를 파악하기 위한 인구통계학적 속성(성별·연령) 예측 문제에 접근한다. 데이터는 시리아텔이 제공한 18,000명의 CDR(통화·문자·데이터 사용 로그), CRM(고객 등급·서비스 가입 내역) 및 청구(월별 요금·부가서비스 사용량) 정보를 통합한 대규모 레코드이며, 빅데이터 플랫폼(Hadoop·Spark) 위에서 전처리와 피처 엔지니어링이 수행되었다. 전처리 단계에서는 결측치 보간, 이상치 제거, 시간대별 사용량 정규화 등을 적용했으며, 범주형 변수는 원-핫 인코딩, 연속형 변수는 표준화하였다. 피처는 크게 세 그룹으로 나뉜다. 첫째, 통화·문자·데이터 트래픽 양·빈도와 같은 행동 기반 피처; 둘째, 요금제·부가서비스 가입 여부 등 계약 기반 피처; 셋째, 고객 등급·이전 마케팅 응답 기록 등 CRM 기반 피처이다. 이러한 다차원 피처는 고객의 생활 패턴과 경제적 여력을 동시에 포착한다는 점에서 기존 연구보다 풍부하다.
모델링 단계에서는 로지스틱 회귀, 서포트 벡터 머신, 랜덤 포레스트, 그래디언트 부스팅 머신(GBM), 심층 신경망(DNN) 등 다섯 가지 알고리즘을 비교하였다. 교차 검증(5‑fold)과 그리드 서치를 통해 하이퍼파라미터를 최적화했으며, 성별은 이진 분류, 연령은 5개의 연령대(10대~50대 이상)로 구분한 다중 클래스 문제로 설정하였다. 평가 지표는 정확도 외에 정밀도·재현율·F1‑score, 그리고 연령 예측의 경우 평균 절대 오차(MAE)도 보고하였다.
실험 결과, 랜덤 포레스트와 GBM이 성별 예측에서 가장 높은 정확도(85.6%)를 기록했으며, 연령 예측에서는 DNN이 65.5%의 정확도와 3.2년의 MAE를 보이며 최우수 성능을 보였다. 특히, 행동 기반 피처가 성별 구분에 가장 큰 기여를 했으며, 계약 기반 피처가 연령 구분에 유의미한 영향을 미쳤다. 변수 중요도 분석을 통해 ‘통화 시간 평균’, ‘데이터 사용량 상위 10% 사용 비율’, ‘프리미엄 요금제 가입 여부’ 등이 핵심 변수로 도출되었다.
한계점으로는 데이터가 시리아텔 단일 사업자에 국한돼 있어 일반화 가능성이 제한적이며, 연령 라벨이 실제 나이 대신 연령대 구분으로 제공돼 세부적인 회귀 분석이 어려웠다는 점을 들었다. 또한, 데이터 수집 기간이 6개월에 불과해 계절성 변동을 충분히 반영하지 못했다는 점도 언급된다. 향후 연구에서는 다중 사업자 데이터 통합, 연령 라벨의 정밀화, 시계열 모델링을 통한 행동 변화 추적 등을 제안한다.
전반적으로 본 연구는 모바일 통신 로그와 고객 관리 데이터를 통합해 성별·연령을 높은 정확도로 예측하는 엔드‑투‑엔드 파이프라인을 제시함으로써, 마케팅 캠페인에서 실제 사용자 타깃팅을 개선하고, 통신사 차원의 고객 이해도를 높이는 실용적 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기