머신러닝으로 모기지 디폴트 예측: AutoML, 클래스 불균형 및 누수 방지

머신러닝으로 모기지 디폴트 예측: AutoML, 클래스 불균형 및 누수 방지
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 Fannie Mae 단일 주택 대출 데이터셋을 활용해 모기지 디폴트 예측 모델을 비교한다. 데이터 레이블 모호성, 심각한 클래스 불균형, 시간적 누수 세 가지 실무적 문제를 해결하기 위해(1) 누수 방지형 변수 선택, (2) 원본일·보고일을 동시에 고려한 엄격한 시계열 분할, (3) 다중 비율의 다운샘플링을 적용하였다. AutoGluon 기반 AutoML이 모든 비율에서 가장 높은 AUROC(0.823)를 기록했으며, 다른 모델에 비해 과적합 위험이 다소 높았다.

상세 분석

이 논문은 모기지 디폴트 예측이라는 금융 리스크 관리 핵심 과제를 실제 대규모 대출 데이터에 적용하면서, 학계와 산업 현장에서 흔히 간과되는 평가 함정들을 체계적으로 검증한다. 첫 번째 함정은 레이블 정의의 모호성이다. 저자들은 DLQ_STATUS>0을 디폴트, =0을 비디폴트로 명확히 구분했으며, 이는 Fannie Mae 데이터가 월별 성과를 여러 행에 중복 기록하는 특성 때문에 레코드 수준에서 정확히 라벨링할 필요가 있음을 강조한다. 두 번째는 클래스 불균형이다. 원본 데이터는 약 100:1의 비율로 비디폴트가 압도적이며, 이는 로지스틱 회귀와 같은 선형 모델이 다수 클래스로 편향되는 원인이 된다. 저자들은 양성 샘플을 고정(≈20 k)하고, 음성 샘플을 1배, 2배, 5배, 10배로 다운샘플링하여 1:11:10의 다양한 비율을 실험했다. 흥미롭게도 AUROC는 비율 변화에 크게 민감하지 않아, 다운샘플링이 모델 성능 유지와 연산 비용 절감에 효과적임을 보여준다. 세 번째는 시간적 누수이다. 원본일(ORIG_DATE)과 보고일(ACT_PERIOD) 두 축을 동시에 고려해 삼각형 형태의 학습·검증·시험 영역을 정의함으로써, 미래 정보가 학습에 포함되는 것을 방지했다. 이 설계는 특히 사후에 채워지는 결제 이력, 연체 상태 등 포스트 이벤트 변수가 모델에 스며들 위험을 차단한다. 모델 구성 측면에서는 로지스틱 회귀(L1/L2), 랜덤 포레스트, XGBoost, LightGBM, AutoGluon 다섯 가지를 비교했다. AutoGluon은 자동 전처리, 하이퍼파라미터 탐색, 앙상블을 내장하고 있어, 동일한 하드웨어(A100 GPU) 환경에서 가장 높은 테스트 AUROC(0.823)를 달성했지만, 학습 AUROC(0.957)와의 격차가 커 과적합 가능성을 시사한다. 반면 XGBoost와 LightGBM은 조기 종료만 적용했으며, AUROC 차이는 12% 수준에 머물렀다. 변수 중요도 분석에서는 ‘원금 대출 후 경과 월’, ‘주요 차주 신용 점수’, ‘현재 미상환 원금’, ‘원본 미상환 원금’ 네 변수가 5% 이상 기여했으며, 이는 전통적인 신용 위험 요인과 시간 경과 효과가 여전히 핵심임을 확인한다. 전체적으로 논문은 데이터 누수 방지와 클래스 불균형 처리라는 두 가지 전처리 전략이 모델 비교에 있어 필수적이며, AutoML이 복잡한 파이프라인을 자동화해 성능을 끌어올릴 수 있음을 실증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기