신용 위험 로지스틱 회귀에서 클래스 불균형이 미치는 영향

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 저발생(저디폴트) 포트폴리오에서 흔히 나타나는 클래스 불균형이 로지스틱 회귀 모델의 분류 정확도와 최적 임계값에 미치는 영향을 시뮬레이션을 통해 체계적으로 분석한다. 사건 비율이 낮아질수록 정확도는 급격히 감소하지만, Gini 계수는 충분히 큰 표본에서는 안정적임을 확인한다. 또한, 예측 변수들의 정보값(IV)과 이를 집계한 AIV 개념을 도입해 신호‑대‑노이즈 비율을 정량화하고, 실무 적용 시 사건 비율과 변수 연관 강도에 따른 기대 성능을 제시한다.

상세 분석

이 연구는 저디폴트 신용 포트폴리오에서 발생하는 극심한 클래스 불균형이 로지스틱 회귀 모델의 성능에 어떤 구조적 영향을 미치는지를 정량적으로 규명한다. 먼저, 사건 비율(event rate)과 예측 변수와의 연관 강도(strength of association)를 독립적으로 조절할 수 있는 데이터 생성 메커니즘을 설계하였다. 사건 비율은 0.5%부터 10%까지 다양하게 설정하고, 연관 강도는 로짓 파라미터의 크기로 조절해 실제 신용 스코어링에서 흔히 관찰되는 신호‑대‑노이즈 비율을 재현한다.

성능 평가는 두 가지 축으로 나뉜다. 첫째는 전통적인 분류 지표인 정확도와 최적 임계값(cut‑off)이며, 둘째는 ROC 곡선 아래 면적을 변형한 Gini 계수이다. 시뮬레이션 결과, 사건 비율이 감소함에 따라 정확도는 비선형적으로 급락하고, 최적 임계값은 점점 낮은 확률값으로 이동한다. 이는 모델이 다수 클래스에 과도히 편향되는 현상을 수치적으로 확인한 것이다. 반면, Gini 계수는 표본 크기가 충분히 클 경우(예: N ≥ 10 000) 사건 비율 변화에 거의 민감하지 않으며, 이는 모델의 구별 능력 자체는 유지된다는 의미다.

특히 논문은 정보값(IV)과 이를 집계한 Aggregate Information Value(AIV)를 도입해 변수들의 개별 및 종합적인 정보 기여도를 정량화한다. AIV는 Kullback‑Leibler 발산을 기반으로 하여, 변수들이 독립적일 경우 개별 IV의 합으로 표현된다. 이를 통해 신호‑대‑노이즈 비율이 낮은 상황에서도 충분한 AIV를 확보하면 Gini 안정성을 유지할 수 있음을 실증한다.

또한, 기존 문헌에서 강조되는 EPV(Events‑Per‑Variable) 기준이 실제 분류 성능과는 약한 상관관계를 보인다는 점을 재확인한다. 대신, 사건 비율과 AIV를 함께 고려한 새로운 실무 가이드라인을 제시한다. 즉, 사건 비율이 1% 이하인 경우 최소 5 000~10 000 건의 표본을 확보하고, AIV가 0.3 이상이면 Gini이 0.6 수준을 기대할 수 있다.

마지막으로, 클래스 불균형 완화를 위한 재샘플링, 합성 데이터 생성, 비용 민감 학습 등 다양한 보정 기법을 검토했지만, 본 연구의 목적은 보정 기법 자체가 아니라 불균형 자체가 모델 성능에 미치는 근본적인 영향을 밝히는 것이었으며, 따라서 보정 없이 순수 데이터 특성만을 분석하였다. 이러한 접근은 향후 보정 기법의 효과를 객관적으로 비교할 기준을 제공한다는 점에서 의의가 크다.

신용 위험 로지스틱 회귀에서 클래스 불균형이 미치는 영향

초록

상세 분석

댓글 및 학술 토론

의견 남기기