통합 금융 데이터 분류 모델
초록
본 논문은 금융 분야에서 발생하는 다양한 데이터에 적용 가능한 통합 분류 모델을 제안한다. 기존의 단일 알고리즘 기반 접근법이 갖는 성능 한계를 극복하기 위해, 데이터 전처리, 특성 선택, 다중 분류기 결합을 포함한 파이프라인을 설계하였다. 실제 기업의 신용 등급, 이탈 예측, 부동산 가격 예측 등 3가지 실험 데이터를 이용해 모델의 정확도, 재현율, F1‑스코어를 평가했으며, 기존 베이스라인 대비 평균 7% 이상의 성능 향상을 입증하였다.
상세 분석
제안된 모델은 크게 네 단계로 구성된다. 첫 번째 단계는 데이터 정제와 결측치 보정이다. 금융 데이터는 거래 기록, 고객 프로필, 시장 지표 등 이질적인 소스에서 수집되므로, 스케일링과 로그 변환을 통해 변수 간 분포 차이를 최소화한다. 두 번째 단계는 특성 엔지니어링으로, 도메인 전문가가 정의한 파생 변수와 자동화된 차원 축소 기법(PCA, t‑SNE)을 병행한다. 특히, 신용 점수와 연체 이력 같은 시계열 특성은 윈도우 기반 통계량(평균, 표준편차, 최대값)으로 변환해 모델에 제공한다. 세 번째 단계는 다중 분류기 앙상블이다. 결정 트리 기반 Gradient Boosting, 서포트 벡터 머신, 그리고 딥러닝 기반 다층 퍼셉트론을 각각 학습시킨 뒤, 메타 학습기(스태킹)로 최종 예측을 수행한다. 이때 각 기본 모델의 하이퍼파라미터는 베이지안 최적화로 자동 튜닝한다. 네 번째 단계는 모델 평가와 해석이다. ROC‑AUC, PR‑AUC, 그리고 SHAP 값을 활용해 중요한 피처를 시각화하고, 비즈니스 의사결정에 직접 연결할 수 있는 인사이트를 도출한다. 실험 결과, 전통적인 로지스틱 회귀나 단일 Gradient Boosting 대비 평균 7.3%의 정확도 상승을 기록했으며, 특히 이탈 예측 시 재현율이 12% 포인트 상승했다. 이는 데이터 불균형을 해결하기 위해 SMOTE와 비용 민감 학습을 적용한 것이 주요 원인으로 분석된다. 또한, 모델 복잡도와 추론 시간 측면에서도 메타 학습기를 경량화함으로써 실시간 서비스에 적용 가능한 수준을 유지했다. 전체 파이프라인은 Python 기반 Scikit‑learn, XGBoost, TensorFlow 라이브러리를 활용했으며, Docker 컨테이너와 CI/CD 파이프라인을 통해 재현성을 확보하였다. 이러한 설계는 금융 기관이 데이터 보안 규정을 준수하면서도 빠르게 모델을 배포·업데이트할 수 있게 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기