디리클레 과정으로 확장 가능한 고객 유사성 추정 모델
초록
본 논문은 동질성(동질성) 이론에 기반해 고객 간 상호작용 데이터를 활용, 라티스 공간 모델에 디리클레 프로세스(DP) 사전분포를 도입해 잠재적 유사성을 추정한다. DP를 이용해 라티스 좌표를 군집화함으로써 N²개의 dyad를 k²( k≪N) 로 축소, 계산량을 크게 낮추어 대규모 네트워크에서도 실용적인 베이지안 추론이 가능하도록 한다. 통신 데이터 실증을 통해 모델 적합도와 예측력을 검증하고, 마케팅 세분화·타깃팅에 활용할 수 있음을 제시한다.
상세 분석
이 연구는 고객 상호작용을 관측값으로 보고, 숨겨진 ‘유사성’이라는 잠재 변수를 라티스 공간상의 좌표 zᵢ 로 모델링한다. 기존 라티스 공간 모델은 각 고객을 연속적인 좌표에 배치하고, 거리 d_{ij}=‖zᵢ−zⱼ‖ 가 작을수록 dyad (i,j) 의 상호작용 확률이나 빈도가 높아진다고 가정한다. 그러나 N이 커지면 모든 dyad에 대해 θ_{ij} (예: 콜 발생률)를 추정해야 하므로 계산 복잡도가 O(N²)로 급증한다. 이를 해결하기 위해 저자는 디리클레 프로세스(DP) 사전분포 G∼DP(α,G₀) 를 zᵢ 의 분포에 적용한다. DP의 특성상 G 는 거의 확정적인 이산 분포가 되며, k 개의 질점(클러스터)만을 가질 가능성이 높다. 따라서 실제로는 k 개의 고유 좌표만 존재하고, 서로 다른 좌표 간 거리 종류는 k²+1 (동일 좌표 간 거리 0 포함)뿐이다. 이렇게 하면 매 반복마다 계산해야 할 φ_{ij} (거리 기반 파라미터)와 f(y_{ij}|θ_{ij}) 의 수가 O(k²)로 감소한다.
모델은 다음과 같이 구성된다. 관측값 y_{ij} 는 포아송 혹은 베르누이 형태의 likelihood f(y_{ij}|θ_{ij}) 를 갖고, θ_{ij} 는 g(θ_{ij}|φ_{ij}) 에 의해 φ_{ij}=h(d_{ij}) (단조 감소 함수)와 연결된다. DP를 이용해 zᵢ 를 군집화함으로써 φ_{ij} 를 직접 추정하지 않고, 군집 할당 변수 cᵢ 와 질점 좌표 μ_c 만을 샘플링한다. Gibbs 샘플링과 메트로폴리스-헤이스팅스 알고리즘을 결합해 사후분포를 효율적으로 탐색한다.
실증에서는 4,781명의 고객으로 구성된 통신 네트워크(약 1억 1천만 dyad)를 사용했으며, DP 군집 수 k≈30 정도로 수렴했다. 모델 적합도는 AIC, BIC, ROC‑AUC 등 기존 네트워크 모델 대비 유의하게 개선되었고, ‘제로 dyad’(관측된 상호작용이 없는 쌍) 중에서도 향후 상호작용을 예측하는 정확도가 크게 높았다. 이는 잠재 유사성을 반영함으로써 비관측 ‘제로’ 정보도 활용할 수 있음을 보여준다.
경영적 시사점으로는, 추정된 라티스 좌표를 시각화해 유사 고객 군집을 식별하고, 이를 기존 인구통계·행동 기반 세분화와 결합해 보다 정교한 타깃 마케팅 전략을 설계할 수 있다. 또한, DP 기반 모델은 사전‑사후 군집 수가 자동으로 조정되므로, 마케터가 군집 수를 사전에 지정할 필요가 없어 실무 적용이 용이하다. 한계점으로는 라티스 차원 D 선택과 사전 파라미터 α 설정이 결과에 영향을 미칠 수 있으며, 동적 네트워크(시간에 따라 변하는 상호작용)에는 정적 가정이 제한적이다. 향후 연구에서는 시간 가변 DP 혹은 스티키 HDP를 도입해 동적 라티스 모델을 확장하고, 구매 행동과의 직접적인 연계 분석을 수행할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기