언더뱅크 고객을 위한 비금융 데이터 기반 신용 위험 예측: 이스탄불 합성 데이터셋 활용
초록
본 논문은 2025년 1분기 이스탄불 인구와 통신 이용 패턴을 반영한 10만 건의 합성 데이터를 구축하고, 전통적인 인구통계 변수만 사용한 모델과 휴대폰 사양·온라인 쇼핑·구독·차량·주거·신용카드 보유 등 10개의 비금융 행동 변수를 추가한 모델을 비교한다. CatBoost, LightGBM, XGBoost 등 3가지 부스팅 알고리즘을 5‑fold 계층형 교차검증으로 평가했으며, 비금융 변수 추가 시 AUC가 평균 1.3 %p 상승하고, 균형 F1 점수가 0.84→0.95(≈14 %) 향상되는 것을 확인했다. 데이터와 파이프라인을 공개함으로써 언더뱅크 고객에 대한 공정하고 투명한 신용 평가 연구를 촉진한다.
상세 분석
논문은 먼저 터키 통계청(TÜİK) 2025년 1분기 인구조사 마진과 통신사 공개 통계치를 기반으로, Retrieval‑Augmented Generation(RAG) 방식을 이용해 OpenAI o3 모델에 프롬프트를 제공함으로써 개인 식별 정보가 전혀 포함되지 않은 합성 레코드를 생성한다. 샘플링 단계는 직업‑소득 연관성을 유지하도록 설계됐으며, 직업별 최소 학력 기준을 적용하고 o3가 제시한 상향 조정 확률을 반영한다. 이후 소득 수준을 기준으로 스마트폰 등급 풀을 매핑하고, 차량 소유·브랜드, 거주구·월세 등을 소득‑가구 규모에 맞는 규칙 기반으로 할당한다. 행동 특성(구독료, 온라인 구매 횟수, 라이드‑헤일링 이용 등)은 산업 대시보드에서 추출한 베이스 레이트에 o3가 추가한 작은 노이즈로 생성돼, 동일 소득·연령 군 내에서도 이질성을 확보한다. 라벨인 delinquency_FL은 고용 변동성, 기기 교체 주기, 임대‑소득 비율, 쇼핑 변동성 등 7가지 규칙을 혼합해 12개월 내 연체 여부를 결정한다.
모델링 파트에서는 인구통계 변수만 사용한 Demo 버전과 비금융 행동 변수를 포함한 Full 버전을 각각 CatBoost, LightGBM, XGBoost에 적용한다. 하이퍼파라미터는 베이지안 최적화(TPE)로 50회 탐색하고, 내부 5‑fold 검증으로 AUC를 최적화한다. 외부 5‑fold 계층형 교차검증을 통해 데이터 불균형을 유지하면서 모델 선택 편향을 방지한다. 결과는 Full 모델이 모든 부스팅 알고리즘에서 AUC를 평균 0.013p 상승시키고, 정밀도·재현율 모두에서 유의미한 개선을 보이며, 특히 균형 F1 점수가 0.84→0.95로 14 % 상승한다는 점이다. 이는 비금융 행동 데이터가 전통적인 인구통계만으로는 포착하기 어려운 재무 건전성 신호를 충분히 제공함을 의미한다.
또한 논문은 데이터와 파이프라인을 GitHub에 공개하고, 모델 설명 가능성(Feature Importance, SHAP)과 차별성 검증(그룹별 AUC, F1) 절차를 제시한다. 이는 규제 기관이 공정성 검토를 수행하고, 핀테크 기업이 투명한 모델을 구축하는 데 실용적인 가이드라인을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기