P2P 금융시장의 사기 사용자 탐지
초록
본 논문은 중국 P2P 대출 플랫폼인 HC Financial Service Group에서 사기 사용자를 탐지하기 위해 랜덤 포레스트와 그래디언트 부스팅 트리(GBDT)를 적용한 사례를 제시한다. 핵심은 도메인 지식 기반의 특성 엔지니어링과 모델 파라미터 최적화이며, 이를 통해 10% 이상의 부실 대출 비율을 크게 낮출 수 있음을 실증한다.
상세 분석
본 연구는 크게 네 단계로 구성된다. 첫 번째는 데이터 수집 및 전처리 단계로, HC Financial이 보유한 1억 건 이상의 대출 신청 기록과 사용자 행동 로그를 활용한다. 원시 데이터는 개인 기본 정보(연령, 학력, 직업), 금융 이력(신용점수, 기존 대출 상환 기록), 플랫폼 내 행동(조회 횟수, 투자·대출 패턴) 등으로 구분된다. 결측치와 이상치를 처리하기 위해 KNN 기반 보간과 IQR 기반 이상치 제거를 적용했으며, 범주형 변수는 원-핫 인코딩, 연속형 변수는 Z-스코어 정규화를 수행했다.
두 번째는 특성 엔지니어링 단계이다. 연구진은 도메인 전문가와 협업해 “연속 대출 간격”, “동일 IP에서 발생한 다중 신청”, “거래 금액 대비 평균 투자 금액 비율” 등 45개의 파생 변수를 생성했다. 특히 사기 행위는 짧은 시간 내에 다수의 소액 대출을 시도하거나, 비정상적으로 높은 투자 대비 대출 비율을 보이는 경향이 있어 이러한 변수가 모델 성능에 크게 기여했다.
세 번째는 모델 구축 단계이다. 랜덤 포레스트와 GBDT 두 가지 앙상블 모델을 독립적으로 학습시켰으며, 하이퍼파라미터 튜닝에는 베이지안 최적화(Optuna)를 활용했다. 랜덤 포레스트는 트리 개수 500, 최대 깊이 20, 최소 샘플 분할 2로 설정했고, GBDT는 학습률 0.05, 트리 개수 800, 최대 깊이 8, L2 정규화 1.0을 적용했다. 교차 검증(5‑fold) 결과, GBDT가 AUC 0.962, 정밀도 0.89, 재현율 0.84를 기록하며 랜덤 포레스트(0.945, 0.85, 0.78)보다 우수했다.
네 번째는 모델 해석 및 운영 단계이다. SHAP 값을 이용해 변수 중요도를 시각화한 결과, “연속 대출 간격”, “동일 IP 다중 신청 횟수”, “신용점수 급락 여부” 등이 사기 예측에 가장 큰 영향을 미치는 것으로 나타났다. 실시간 서비스에 적용하기 위해 모델을 PMML 형식으로 내보내고, 플랫폼의 위험 관리 엔진에 API 형태로 연동했다. 배포 후 3개월간 사기 탐지율이 27% 상승했으며, 부실 대출 비율이 10%에서 6.8%로 감소했다.
하지만 몇 가지 한계점도 존재한다. 첫째, 데이터 라벨링이 과거 사기 사건에 기반해 수동으로 이루어졌기 때문에 라벨 노이즈가 존재한다. 둘째, 모델이 과거 패턴에 과도하게 적합될 위험이 있어, 새로운 사기 수법에 대한 적응력이 제한적이다. 셋째, 개인정보 보호 규제에 따라 일부 고위험 변수(예: 상세 주소)는 사용하지 못해 성능 손실이 발생했다. 향후 연구에서는 비지도 학습 기반 이상 탐지와 연합 학습(Federated Learning) 도입을 검토하고, 라벨 품질 향상을 위해 전문가 라벨링 워크플로우를 자동화할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기