신규 고객 신용평가를 위한 로지스틱 회귀 전이학습
초록
본 논문은 기존 고객과 비고객 두 집단의 로지스틱 회귀 모델을 연결하는 전이학습 프레임워크를 제안한다. 일반화된 가우시안 판별 이론을 로지스틱 모델에 적용해 파라미터 간 선형 변환 관계를 설정하고, 이를 독일 신용 데이터에 실험하여 비고객 신청자의 분류 정확도를 향상시켰다.
상세 분석
이 연구는 신용평가 분야에서 흔히 발생하는 “데이터 편향” 문제를 해결하고자 한다. 전통적인 신용점수 모델은 은행이 보유한 기존 고객 데이터만을 학습해, 신규 혹은 비고객 신청자에 대한 예측 성능이 저하되는 한계를 가진다. 저자는 이러한 문제를 ‘전이학습(Transfer Learning)’이라는 개념으로 접근한다. 구체적으로, 두 개의 이질적인 모집단—기존 고객 집단(소스)과 비고객 집단(타깃)—에 대해 각각 로지스틱 회귀 모델을 구축하고, 두 모델의 파라미터 사이에 선형 변환(스케일링 및 이동) 관계를 가정한다. 이는 기존 연구에서 사용된 일반화된 가우시안 판별(Generalized Gaussian Discrimination, GGD) 모델을 로지스틱 회귀 형태로 전이한 것으로, 확률적 해석을 유지하면서도 구현이 간단한 장점을 제공한다.
논문은 네 가지 변형 모델을 제시한다. 첫 번째는 파라미터를 그대로 공유하는 ‘동일 파라미터 모델’; 두 번째는 절편만 이동시키는 ‘절편 전이 모델’; 세 번째는 전체 계수를 스케일링하는 ‘계수 스케일 모델’; 네 번째는 스케일링과 절편 이동을 동시에 적용하는 ‘복합 전이 모델’이다. 각 모델은 최소우도 추정(Maximum Likelihood Estimation)과 정규화(L2) 기법을 이용해 학습되며, 소스 집단의 풍부한 라벨 정보를 활용해 타깃 집단의 파라미터 초기값을 설정한다.
실험은 UCI의 German Credit 데이터셋을 사용한다. 데이터는 기존 고객(은행과 장기 거래 이력 보유)과 비고객(신규 신청자)으로 인위적으로 분할되었으며, 각 집단의 클래스 비율은 동일하게 유지하였다. 모델 성능 평가는 정확도, AUC, F1-score 등 다중 지표를 통해 비교하였다. 결과는 복합 전이 모델이 비고객 집단에서 가장 높은 AUC(0.78)를 기록하며, 기본 로지스틱 회귀(비전이 모델)의 AUC(0.71)보다 유의미하게 개선됨을 보여준다. 또한 절편 전이 모델도 절편만 조정함으로써 소폭의 성능 향상을 달성한다.
이 연구의 주요 기여는 다음과 같다. 첫째, GGD에서 제시된 파라미터 변환 아이디어를 로지스틱 회귀에 성공적으로 적용함으로써, 확률적 해석과 모델 간 연결성을 동시에 확보하였다. 둘째, 파라미터 전이 구조가 데이터가 부족한 타깃 집단에 대해 과적합을 방지하고 일반화 능력을 높이는 효과를 실증하였다. 셋째, 비교적 간단한 선형 변환만으로도 복잡한 비선형 전이 방법보다 경쟁력 있는 결과를 얻을 수 있음을 입증하였다.
하지만 몇 가지 한계도 존재한다. 파라미터 변환을 선형으로 가정함으로써 두 집단 간 비선형 관계를 포착하지 못할 가능성이 있다. 또한 데이터셋이 인위적으로 분할된 점은 실제 금융기관에서의 자연스러운 비고객 데이터와 차이가 있을 수 있다. 향후 연구에서는 비선형 전이 함수(예: 신경망 기반 매핑)와 다중 소스 도메인(다양한 은행·지역) 활용을 검토할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기