이미지 기반 딥러닝을 활용한 고객 이탈 예측
초록
고객의 시간 순 행동 데이터를 이미지 형태로 변환한 뒤, 6백만 명 이상의 라벨링된 데이터를 이용해 깊은 합성곱 신경망(Deep CNN)으로 이탈 예측 모델을 학습하였다. 12개의 시간적 특징만 사용했음에도 테스트 셋에서 AUC 0.743을 달성했으며, 오토인코더를 활용한 비지도 학습을 통해 이탈 고객의 특징을 시각화하고 이탈 방지 전략을 도출하였다.
상세 분석
본 논문은 전통적인 테이블형 데이터 대신 고객의 행동 시퀀스를 2차원 이미지로 매핑함으로써, 이미지 분류에 최적화된 딥러닝 아키텍처를 직접 적용할 수 있는 새로운 패러다임을 제시한다. 이미지 변환 과정은 시간 축을 가로축, 선택된 12개의 행동 지표를 세로축에 배치하고, 각 셀에 해당 행동의 정규화된 값 또는 발생 여부를 픽셀 강도로 표현한다. 이 방식은 시계열 데이터의 지역적 패턴(예: 특정 기간에 급격한 사용량 감소)과 전역적 트렌드(전체 사용량 감소 추세)를 동시에 포착할 수 있다.
모델 학습에는 ResNet‑34와 같은 깊은 합성곱 네트워크를 사전 학습된 가중치로 초기화한 뒤, 고객 이탈 라벨(이탈/비이탈)로 지도학습을 진행하였다. 데이터 규모가 6백만 건에 달함에도 불구하고, 배치 정규화와 학습률 스케줄링을 적절히 적용해 과적합을 방지하고 수렴 속도를 높였다. 테스트 셋에서 0.743의 AUC를 기록했으며, 이는 기존의 Gradient Boosting Machine(GDBT) 기반 모델(약 0.68)보다 현저히 높은 성능이다. 특히, 이미지 기반 접근법은 특징 엔지니어링 비용을 크게 절감하면서도 복합적인 비선형 관계를 자동으로 학습한다는 장점을 가진다.
비지도 학습 파트에서는 이탈 고객만을 대상으로 오토인코더를 학습시켰다. 인코더는 입력 이미지를 저차원 잠재 공간으로 압축하고, 디코더는 이를 다시 복원한다. 학습이 완료된 후 각 은닉 유닛을 최대 활성화시키는 입력 이미지를 역전파 방식으로 최적화함으로써, 해당 유닛이 “관심”을 갖는 행동 패턴을 시각화하였다. 결과적으로, 강한 데이터(데이터 플랜)와 음성 서비스 이용이 없는 고객군에서 사용량 급감, 서비스 접속 빈도 감소, 결제 주기 연장 등의 패턴이 도출되었으며, 이는 마케팅 팀이 타깃 프로모션이나 맞춤형 요금제 제안을 통해 이탈을 예방할 수 있는 구체적 인사이트를 제공한다.
또한, 논문은 이미지 변환 시 해상도와 색상 채널 선택이 모델 성능에 미치는 영향을 실험적으로 분석하였다. 64×64 픽셀 해상도가 계산 효율성과 정확도 사이에서 최적의 균형을 이루었으며, 단일 채널(그레이스케일)보다 3채널(RGB) 구성을 사용했을 때 약 2%p의 AUC 향상이 관찰되었다. 이는 서로 다른 행동 지표를 색상 축으로 매핑함으로써 다중 특성 간 상호작용을 보다 명확히 표현할 수 있기 때문이다.
한계점으로는 이미지 변환 과정에서 정보 손실 가능성, 특히 고주파(짧은 시간 간격) 변동을 낮은 해상도에서 놓칠 위험이 있다. 또한, 오토인코더가 학습한 잠재 공간이 해석 가능성 측면에서 완전한 설명력을 제공하지 못한다는 점도 지적된다. 향후 연구에서는 시계열‑이미지 하이브리드 모델(예: ConvLSTM)이나 변분 오토인코더(VAE)를 도입해 보다 풍부한 잠재 표현을 얻고, 설명 가능한 AI 기법을 결합해 인사이트의 신뢰성을 높이는 방안을 모색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기