신용평가를 위한 클래스 불균형 인식 적응형 데이터셋 증류 프레임워크

신용평가를 위한 클래스 불균형 인식 적응형 데이터셋 증류 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 사전학습 탭형 모델인 TabPFN의 입력 제한을 극복하기 위해, 클래스 불균형을 고려한 데이터셋 증류 기법을 제안한다. KIP 기반 증류에 focal loss·LDAM·클래스 가중치 등 불균형 인식 손실을 통합해 소수 클래스의 구조를 보존하고, 6개의 공개 신용평가 데이터셋에서 전체 데이터 대비 76‑95% 수준의 AUC를 유지하면서 샘플 수를 10% 이하로 감소시켰다. 또한 NNDR을 활용한 기하학적 프라이버시 분석을 통해 합성 샘플이 원본 레코드와 멀리 떨어져 있음을 확인했다.

상세 분석

이 연구는 세 가지 핵심 문제를 동시에 해결한다. 첫째, 신용평가 데이터는 기본적으로 심각한 클래스 불균형(디폴트 비율 0.5‑10%)을 보이며, 기존 오버/언더샘플링 기법은 데이터 손실이나 노이즈 유입 위험이 있다. 둘째, 금융 데이터는 개인정보 보호와 규제 제약으로 원본 데이터를 공유하기 어렵다. 셋째, TabPFN과 같은 대규모 사전학습 모델은 입력 샘플 수에 엄격한 상한을 두고 있어, 수천~수만 건 규모의 실제 신용 데이터에 직접 적용하기 어렵다.

논문은 이러한 제약을 해소하기 위해 데이터셋 증류(Dataset Distillation)를 선택한다. 기존 KIP(Kernel Inducing Points) 기반 증류는 MSE 손실을 최소화해 합성 샘플을 생성하지만, 불균형 데이터에 적용하면 소수 클래스 정보를 충분히 반영하지 못한다. 이를 보완하기 위해 저자는 다음과 같은 불균형 인식 손실을 도입한다.

  1. Focal Loss – 어려운 소수 클래스 샘플에 더 큰 가중치를 부여하여 학습 초기에 마이너리티 패턴을 강조한다.
  2. LDAM (Label‑Distribution‑Aware Margin) – 클래스별 마진을 조정해 소수 클래스 결정 경계를 넓혀, 모델이 소수 클래스를 더 잘 구분하도록 한다.
  3. 클래스 가중치 기반 MSE – 각 클래스의 효과적 샘플 수에 비례해 MSE 손실에 가중치를 부여, 전체 손실이 다수 클래스에 편향되지 않게 만든다.

이러한 손실을 KIP 최적화에 동시에 적용함으로써, 증류 과정 자체가 데이터의 불균형 구조를 학습한다. 결과적으로 생성된 합성 지원 집합은 소수 클래스의 기하학적 특성을 보존하면서도 전체 데이터의 대표성을 유지한다.

실험에서는 6개의 공개 신용평가 데이터셋(예: German Credit, LendingClub 등)을 사용해, 각 데이터셋을 80% 훈련 / 20% 테스트로 분할하였다. 증류된 지원 집합의 크기는 원본 데이터의 5%~10% 수준으로 제한했으며, 동일 크기의 무작위 서브셋과 비교하였다. 평가 지표는 AUC, KS, F1‑Score, Recall, Precision을 포함한다.

주요 결과는 다음과 같다.

  • 불균형 인식 증류는 기존 MSE 기반 증류 대비 AUC를 평균 4.2%p, 최악 8.7%p 향상시켰다.
  • 증류된 데이터는 전체 데이터 대비 76‑95% 수준의 AUC를 유지하면서, 원본 샘플의 10% 이하(최대 31.3%)만 사용했다.
  • 다양한 모델(LightGBM, XGBoost, MLP, KNN, TabPFN)에서 일관적으로 무작위 서브셋보다 높은 성능을 기록했다.
  • NNDR(Nearest‑Neighbour Distance Ratio) 분석 결과, 합성 샘플과 가장 가까운 원본 샘플 간 거리 비율이 0.8‑0.9 수준으로, 메모리화 위험이 낮아 프라이버시 보호 효과를 기하학적으로 입증했다.

또한 메타 회귀 분석을 수행해, 불균형 인식 손실의 가중치 조합이 AUC 향상에 미치는 영향을 정량화하였다. 결과는 소수 클래스 비율이 5% 이하인 데이터셋에서 특히 큰 이득을 보이며, 불균형 정도가 심할수록 증류 효과가 두드러진다는 것을 시사한다.

한계점으로는 현재 프라이버시 보호가 기하학적 거리 기반으로만 평가되었으며, 공식적인 차등 프라이버시(DP) 보장은 제공되지 않는다. 향후 연구에서는 DP 메커니즘을 결합하거나, 멀티기관 연합 학습 환경에서 증류된 데이터를 안전하게 공유하는 방안을 탐색할 필요가 있다.

전반적으로 이 논문은 데이터 레벨에서 클래스 불균형을 해결하고, 사전학습 탭형 모델의 확장성을 확보하며, 프라이버시를 고려한 데이터 압축 방식을 제시함으로써, 금융 분야에서 대규모 신용평가 모델 적용에 새로운 길을 열었다.


댓글 및 학술 토론

Loading comments...

의견 남기기