소비자 방문 패턴의 예측 가능성: 장기적 규칙성과 단기적 불확실성
초록
신용카드 거래 데이터를 이용해 개인별 상점 방문 시퀀스를 분석한 결과, 장기적으로는 소비자들의 방문 행동이 Zipf 법칙을 따르는 높은 규칙성을 보이며 예측 가능하지만, 일일·주간 수준에서는 순서가 뒤섞이는 등 stochastic한 요소가 크게 작용해 정확한 다음 방문지 예측은 제한적이다.
상세 분석
본 연구는 북미와 유럽 두 금융기관에서 각각 5천만·4백만 건의 신용카드 거래를 추출해 611개월 동안 1050개의 상점을 월별로 방문한 수만 명의 개인 시계열을 구축하였다. 데이터 전처리 단계에서 기업·공동 사용 카드를 배제하고, 월당 거래 횟수 50120회, 방문 상점 수 1050개 조건을 적용해 실제 소비자 행동을 반영하도록 했다.
예측 가능성을 정량화하기 위해 두 종류의 엔트로피를 도입했다. 첫 번째인 temporally‑uncorrelated (TU) 엔트로피는 각 상점 방문 빈도 p_i만을 사용해 S_TU = -∑ p_i log p_i 로 계산되며, 순서 정보를 무시한다. 두 번째인 sequence‑dependent (SD) 엔트로피는 Lempel‑Ziv 압축을 기반으로 한 Kolmogorov 복잡도 추정치로, 방문 순서의 압축 가능성을 측정한다. 두 엔트로피 모두 인구 전체에 대해 좁은 분포를 보였으며, 특히 신용카드 데이터에서는 TU와 SD 엔트로피 차이가 미미했다. 이는 소비자들이 일일·주간 수준에서 방문 순서를 자유롭게 교환하면서도 전체 방문 빈도는 안정적이라는 점을 시사한다.
또한, 상점 방문 순서를 설명하기 위해 1차 마코프 체인을 구축하였다. 전이 행렬 P_{ij}=Pr(X_{t+1}=j|X_t=i) 를 개인별 학습 데이터(16개월)로 추정하고, 이후 14개월의 테스트 구간에 대해 다음 방문지를 예측했다. 결과는 다음과 같다. (1) 학습 기간을 늘려도 정확도 향상이 미미했고, (2) 3개월 이하의 짧은 학습에서는 단순 빈도 기반(naïve) 모델이 마코프 모델보다 우수했다. 이는 소비자 행동이 급격히 변하거나 새로운 상점을 탐색하는 비율이 일정 수준 존재함을 의미한다.
개인 모델 외에 전체 인구의 전이 확률을 합산한 global 마코프 모델을 적용했을 때, 평균 정확도가 25~27%로 약간 상승했지만 표준편차가 3.6%까지 증가해 샘플 선택에 민감함을 드러냈다. 이는 동일한 상점을 공유하는 고객 간의 전이 패턴이 일부 예측력을 제공하지만, 여전히 개인의 즉흥적 선택이 큰 비중을 차지한다는 결론으로 이어진다.
결론적으로, 장기적으로는 Zipf 법칙(α≈0.81.13)과 낮은 TU 엔트로피가 소비자 방문 행동의 높은 규칙성을 뒷받침한다. 반면, 단기(일주)에서는 순서 교환과 새로운 경로 탐색이 빈번해 SD 엔트로피가 크게 감소하지 않으며, 마코프 모델조차도 다음 방문지를 정확히 맞추기엔 한계가 있다. 이러한 결과는 ‘예측 가능성’이라는 개념을 시간 척도에 따라 다르게 해석해야 함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기