CRM을 위한 반지도 학습 기반 고객 행동 모델링

초록

본 논문은 고객 관계 관리(CRM)에서 대량의 라벨링된 데이터와 라벨이 없는 데이터를 동시에 활용하는 반지도 학습 기법을 적용한다. 다층 퍼셉트론(MLP) 신경망을 백프로파게이션으로 학습시키고, RapidMiner 플랫폼을 이용해 라벨링된 고객 데이터와 비라벨 데이터의 구조적 정보를 모두 이용해 잠재 고객의 카테고리를 예측한다. 실험 결과, 반지도 학습이 순수 지도 학습에 비해 예측 정확도와 재현율을 향상시킴을 확인하였다.

상세 분석

이 연구는 CRM 시스템에서 고객 데이터를 효과적으로 활용하기 위해 ‘반지도 학습(semi‑supervised learning)’이라는 비교적 최신의 머신러닝 패러다임을 도입한 점이 가장 큰 특징이다. 전통적인 CRM 데이터 마이닝은 주로 라벨이 부여된 거래 기록, 구매 이력, 인구통계학적 특성 등을 이용한 지도 학습에 의존해 왔으며, 라벨이 없는 방대한 로그 데이터는 무시되거나 별도의 전처리 단계에서만 활용되었다. 그러나 실제 기업 데이터베이스는 라벨이 부여된 샘플이 상대적으로 적고, 비라벨 데이터가 전체의 80~90%를 차지한다는 점에서 라벨링 비용을 최소화하면서도 모델 성능을 끌어올릴 수 있는 방법론이 절실히 요구된다.

논문에서는 피드포워드 신경망, 즉 다층 퍼셉트론(MLP)을 기본 모델로 선택하고, 백프로파게이션 알고리즘을 통해 가중치를 최적화한다. 여기서 핵심은 ‘자기 지도(self‑training)’와 ‘라벨 전파(label propagation)’ 같은 반지도 학습 전략을 결합해, 초기 라벨이 있는 소규모 데이터셋으로 모델을 사전 학습한 뒤, 모델이 높은 신뢰도를 보이는 비라벨 샘플에 대해 의사 라벨을 부여하고 이를 재학습에 활용한다. 이렇게 반복적인 라벨 확장 과정을 거치면, 비라벨 데이터가 가진 군집 구조와 분포 정보를 모델이 내재화하게 된다.

또한, RapidMiner라는 시각적 데이터 과학 툴을 활용함으로써 비전문가도 손쉽게 라벨링, 피처 엔지니어링, 모델 학습, 평가 과정을 수행할 수 있도록 설계했다. RapidMiner의 ‘Semi‑Supervised Learning’ 플러그인은 라벨 전파와 같은 알고리즘을 블록 형태로 제공해, 데이터 흐름을 직관적으로 구성할 수 있게 한다. 이는 기업 현장에서 데이터 과학자와 비즈니스 담당자 간의 협업 장벽을 낮추는 실용적 이점을 제공한다.

실험 설계는 두 가지 데이터셋—(1) 실제 기업의 고객 거래 로그와 인구통계 정보를 포함한 대규모 데이터베이스, (2) 공개된 UCI ‘Adult’ 데이터셋을 CRM 시나리오에 맞게 변형한 가상 데이터—을 사용했다. 라벨이 있는 샘플은 전체의 10% 수준으로 제한했으며, 나머지는 비라벨 데이터로 처리했다. 성능 평가는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1‑Score 등 다중 지표를 사용했으며, 순수 지도 학습(Multi‑Layer Perceptron)과 비교했을 때 반지도 학습이 평균 4~7%p의 정확도 향상을 보였다. 특히, 라벨이 희소한 상황에서 재현율이 크게 개선되어, 잠재 고객을 놓치지 않는 마케팅 전략 수립에 유리함을 확인했다.

한계점으로는 라벨 전파 과정에서 오류가 누적될 위험이 존재한다는 점이다. 초기 모델이 잘못된 예측을 하면, 잘못된 의사 라벨이 대량으로 확산되어 전체 성능을 저하시킬 수 있다. 이를 완화하기 위해 논문에서는 ‘신뢰도 임계값(threshold)’를 도입했지만, 최적 임계값 설정이 데이터마다 달라 추가적인 튜닝이 필요하다. 또한, MLP 구조가 비교적 얕고, 하이퍼파라미터 탐색이 제한적이어서 최신 딥러닝 아키텍처(예: CNN, Transformer 기반 모델)와의 성능 비교가 이루어지지 않은 점도 아쉽다.

종합적으로, 이 연구는 CRM 분야에서 라벨이 부족한 현실적 문제를 반지도 학습이라는 방법론으로 해결하고자 한 시도이며, RapidMiner와 같은 실무 친화적 툴을 결합함으로써 이론과 실무 사이의 격차를 줄이는 데 기여한다. 향후 연구에서는 오류 전파를 억제하는 보다 정교한 라벨 전파 메커니즘과, 대규모 비라벨 데이터에 특화된 딥러닝 모델을 도입해 성능을 한층 끌어올릴 여지가 있다.