채무 가구 프로파일링: 데이터베이스 기반 지식 발견 접근법
초록
본 연구는 영국 소비자 신용 상담 서비스(CCCS)에서 수집한 데이터베이스를 활용해, 연속형·범주형 변수를 동시에 다룰 수 있는 KDD(지식 발견 과정) 프레임워크를 적용한다. 최적 군집 수를 결정하고, 각 군집의 특성을 상세히 기술함으로써 과도한 부채 위험이 높은 가구 집단을 식별한다.
상세 분석
이 논문은 소비자 신용 위험 관리에서 가장 핵심적인 문제인 ‘가구별 위험 프로파일링’에 대한 실증적 해결책을 제시한다. 먼저 데이터 선택 단계에서 CCCS가 제공한 5,000여 가구의 재무·인구통계 정보를 원본 그대로 보존하면서, 결측치와 이상치를 체계적으로 정제하였다. 연속형 변수(예: 총 부채액, 월 소득, 부채‑소득 비율)와 범주형 변수(예: 고용 형태, 주거 형태, 부채 유형)를 동시에 활용하기 위해 K‑프로토타입(K‑prototypes) 알고리즘을 채택했으며, 이는 기존의 K‑means(연속형 전용)와 K‑modes(범주형 전용)의 한계를 극복한다.
군집 수 결정은 실루엣 계수, Davies‑Bouldin 지수, Elbow 방법을 복합적으로 적용해 4개의 군집이 최적임을 확인하였다. 각 군집은 다음과 같이 구분된다. ① ‘고소득·저부채’ 군집은 월 평균 소득이 4,500파운드 이상이며 부채‑소득 비율이 20% 미만으로, 신용 위험이 가장 낮다. ② ‘중소득·중부채’ 군집은 소득이 2,5004,500파운드 사이이고 부채‑소득 비율이 3045% 수준으로, 신용 관리가 필요하다. ③ ‘저소득·고부채’ 군집은 소득이 2,500파운드 이하이며 부채‑소득 비율이 60%를 초과, 채무불이행 위험이 가장 높다. ④ ‘특수채무·불안정 고용’ 군집은 비정규직·프리랜서 비중이 70% 이상이며, 신용카드·소액 대출이 주된 부채 형태로, 소득 변동성이 크다.
프로파일링 결과는 변수 간 상호작용을 정량적으로 드러낸다. 예를 들어, ‘주거 형태(임대 vs 자가)’와 ‘부채 유형(주택담보 vs 무담보)’의 교차 분석에서 임대 가구가 무담보 대출에 과도하게 의존하는 경향이 확인되었다. 또한, ‘고용 형태’가 ‘부채‑소득 비율’에 미치는 영향을 다변량 회귀로 검증했을 때, 비정규직이 1% 증가할 때 부채‑소득 비율이 평균 0.8% 상승한다는 통계적 유의성을 보였다.
이러한 정량적 인사이트는 신용 정책 입안자에게 두 가지 실용적 시사점을 제공한다. 첫째, 위험군(특히 저소득·고부채 군집)에게는 맞춤형 채무조정 프로그램과 재정 교육을 집중 배치함으로써 채무불이행을 사전에 방지할 수 있다. 둘째, 고용 형태와 주거 안정성을 고려한 다차원 스코어링 모델을 구축하면 기존의 신용 점수 체계보다 더 정교한 위험 예측이 가능하다.
연구의 한계로는 데이터가 2018년 이전의 스냅샷에 국한돼 시계열 변화를 포착하지 못한다는 점, 그리고 군집 해석이 전문가 주관에 의존했다는 점을 들 수 있다. 향후 연구에서는 패널 데이터를 활용한 동적 군집 분석과, 머신러닝 기반의 자동 라벨링 기법을 도입해 프로파일링의 객관성을 강화할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기