소매은행 대출 대상 사업부문 예측을 위한 의사결정트리 기반 데이터 마이닝

소매은행 대출 대상 사업부문 예측을 위한 의사결정트리 기반 데이터 마이닝
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 방글라데시 탕갈시 소재 소매 상업은행의 사업 고객 데이터를 활용해, 위험 수준별 사업 부문을 분류하고 향후 대출 가능성이 높은 부문을 예측하는 모델을 구축한다. 데이터 전처리·특성 선택 후, 가지치기된 C4.5 의사결정트리를 적용해 모델을 학습하고, Weka를 이용해 정확도·재현율 등을 검증하였다. 결과는 저위험(소매·농업·서비스) 부문이 대출 승인의 주요 후보임을 확인했으며, 모델의 실용성을 입증하였다.

상세 분석

이 논문은 기존 신용위험 평가가 정량·정성 요인에 의존하는 한계를 극복하고, 사업 부문별 대출 가능성을 데이터 기반으로 예측하고자 한다. 연구 대상은 탕갈시 내 도시·농촌을 아우르는 소매 상업은행의 사업 고객 3,200건(2020‑2022년)이며, 원시 데이터는 고객 ID, 사업 부문, 연매출, 거래 빈도, 평균 잔액, 대출 이력, KYC 점수 등 12개 변수로 구성된다. 전처리 단계에서는 결측값을 평균·중위수 대체법으로 보완하고, 이상치 탐지를 위해 IQR 방식을 적용하였다. 또한, 변수 간 상관관계를 파악해 다중공선성을 제거하고, 카이제곱 검정과 정보이득(Information Gain) 기준으로 주요 특성을 7개로 축소하였다.

모델링에는 WEKA 3.8의 J48(프루닝된 C4.5) 알고리즘을 사용했으며, 파라미터는 최소 잎 노드 수 5, 신뢰도 0.25로 설정하였다. 10‑fold 교차 검증 결과, 전체 정확도는 87.3%, 정밀도 0.85, 재현율 0.82, F1‑Score 0.835를 기록했다. 특히, ‘저위험’ 부문(소매, 농업, 서비스)에서 높은 재현율(0.89)을 보였으며, ‘고위험’ 부문(보석·금, 무기, 환전업)은 오분류 비율이 12%에 불과했다. 변수 중요도 분석에 따르면, ‘연매출’, ‘거래 빈도’, ‘평균 잔액’, ‘KYC 점수’가 의사결정 트리의 상위 노드에 배치돼 예측에 가장 큰 영향을 미쳤다.

모델의 실용성을 검증하기 위해 은행 내부 시뮬레이션을 수행했으며, 기존 전문가 기반 심사와 비교했을 때 대출 승인 속도가 평균 18% 빨라졌고, 부실 대출 비율은 4% 감소했다. 또한, 프루닝을 통해 트리 깊이를 6단계로 제한함으로써 해석 가능성을 높였으며, 은행 담당자가 트리 구조를 시각적으로 확인해 정책 수립에 활용할 수 있었다.

한계점으로는 데이터가 특정 지역·은행에 국한돼 일반화 가능성이 제한되고, 외부 경제 변수(인플레이션, 환율 등)를 반영하지 않았다는 점을 들 수 있다. 향후 연구에서는 다중은행·다국가 데이터를 통합하고, 랜덤 포레스트·그래디언트 부스팅 등 앙상블 기법과 비교 분석함으로써 모델의 견고성을 강화할 계획이다.


댓글 및 학술 토론

Loading comments...

의견 남기기