보험 위험 분류에서 Ripper 성능 향상을 위한 특징 선택 비교 연구
초록
본 연구는 보험 데이터의 결측치가 많아질수록 분류 정확도가 떨어지는 Ripper 알고리즘의 한계를 극복하고자, 주성분 분석(PCA)과 자동 관련성 결정(ARD) 두 가지 특징 선택 기법을 적용하였다. 완전 관측된 학습 데이터와 인위적으로 결측을 삽입한 테스트 데이터를 이용해 성능을 비교한 결과, PCA 기반 특징 선택이 Ripper의 분류 정확도를 가장 크게 향상시켰음을 확인하였다.
상세 분석
Ripper 알고리즘은 규칙 기반 분류기로, 대규모 고차원 데이터에서 빠르게 규칙을 생성하지만, 특징이 많을 경우 과적합(over‑fitting) 위험이 커져 결측치가 포함된 새로운 데이터에 대해 성능이 급격히 저하된다. 본 논문은 이러한 문제를 완화하기 위해 두 가지 차원 축소 및 특징 선택 방법을 도입하였다. 첫 번째는 선형 변환을 기반으로 데이터 분산을 최대한 보존하면서 차원을 축소하는 주성분 분석(PCA)이다. PCA는 공분산 행렬의 고유값·고유벡터를 계산해 가장 큰 고유값에 대응하는 축을 선택함으로써, 원 데이터의 변동성을 대부분 유지하면서 불필요한 변수들을 제거한다. 두 번째는 베이지안 신경망에 적용되는 자동 관련성 결정(ARD) 기법으로, 각 입력 변수에 대한 하이퍼파라미터(α)를 학습해 α가 크게 추정된 변수는 가중치가 거의 0에 수렴하도록 강제한다. 이는 변수별 중요도를 자동으로 평가해 비관련 변수를 억제함으로써 모델 복잡도를 낮춘다.
실험은 두 개의 보험 데이터셋(캘리포니아 자동차 보험 데이터와 텍사스 의료 보험 청구 데이터)을 사용하였다. 각각 86·185개의 원본 특성을 가지고 있었으며, 학습 단계에서는 결측치가 없는 완전 데이터(5,000·4,000개 인스턴스)를 이용해 Ripper, PCA‑Ripper, ARD‑Ripper 모델을 훈련시켰다. 테스트 단계에서는 10 %50 %의 결측 비율을 임의로 삽입한 12개의 변형 데이터셋을 생성해 모델의 복원력과 정확도를 평가하였다. 결과는 다음과 같다. 결측 비율이 낮을 때는 기본 Ripper도 비교적 높은 정확도를 보였지만, 결측 비율이 30 % 이상으로 증가하면 정확도가 급격히 떨어졌다. PCA‑Ripper는 차원 축소 후 남은 주요 성분만을 사용함으로써 과적합을 억제하고, 결측치가 많은 상황에서도 평균 812 %p의 정확도 향상을 달성했다. 반면 ARD‑Ripper는 일부 변수의 중요도를 효과적으로 제거했지만, 비선형 관계를 완전히 포착하지 못해 PCA에 비해 상대적으로 낮은 성능을 보였다. 특히 고차원 텍사스 데이터에서는 ARD가 일부 중요한 연속 변수를 과도하게 억제해 성능 저하가 두드러졌다.
이러한 결과는 Ripper와 같은 규칙 기반 모델이 고차원·결측 데이터에 취약함을 재확인하면서, 선형 차원 축소(PCA)가 비선형 기반 ARD보다 결측치 처리에 더 강건함을 시사한다. 또한, 특징 선택을 사전 단계에 적용함으로써 규칙 수가 감소하고, 규칙의 일반화 능력이 향상되어 실제 보험 리스크 평가와 같은 비즈니스 환경에서 실용적인 모델 구축이 가능함을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기