사기 알림 처리 지원을 위한 사례 기반 추론
본 논문은 사기 탐지 모델의 예측 신뢰성을 도메인 전문가가 판단하도록 돕기 위해, SHAP 기반 지역 설명을 활용한 사례 기반 추론(CBR) 시스템을 제안한다. 가장 유사한 과거 사례를 시각화하여 전문가가 예측의 신뢰도를 직관적으로 평가할 수 있게 하며, 실제 은행 분석가들의 사용성 테스트에서 긍정적인 평가를 받았다.
저자: Hilde J.P. Weerts, Werner van Ipenburg, Mykola Pechenizkiy
논문은 사기 탐지와 같은 고위험 분야에서 머신러닝 모델이 생성한 알림을 인간 분석가가 검토해야 하는 상황을 출발점으로 한다. 복잡한 블랙박스 모델은 높은 정확도를 제공하지만, 예측에 대한 신뢰성을 인간이 직접 판단하기는 어렵다. 기존에 제시된 confidence 점수는 보정이 필요하고, SHAP·LIME·Anchor와 같은 로컬 설명도 단독으로는 전문가의 의사결정에 충분한 정보를 제공하지 못한다는 선행 연구가 있다. 이에 저자들은 ‘사례 기반 추론(CBR)’이라는 전통적인 인공지능 기법을 현대적인 설명 기법과 결합하여 새로운 의사결정 지원 도구를 설계한다.
시스템은 두 단계로 이루어진다. 첫 번째 단계인 ‘사례 검색(Case Retrieval)’에서는 질의 인스턴스와 가장 유사한 k개의 과거 거래를 찾아낸다. 여기서 유사도는 네 가지 거리 함수 중 하나를 사용한다. (i) 피처값 기반 거리(d_F)는 전통적인 유클리드 거리이며, 피처가 정규화돼 있다고 가정한다. (ii) SHAP 값 기반 거리(d_S)는 각 인스턴스의 SHAP 설명 벡터를 직접 비교한다. (iii) 전역 가중 피처값 거리(d_G)는 전역 SHAP 중요도(모든 인스턴스에 대한 평균 절대 SHAP 값)로 피처를 가중한다. (iv) 로컬 가중 피처값 거리(d_L)는 질의 인스턴스의 로컬 SHAP 중요도(질의 인스턴스에 대한 SHAP 절대값)로 가중한다. 저자들은 이 네 가지 거리 함수를 조합해 검색 단계와 시각화 단계에 각각 적용해 본다.
두 번째 단계인 ‘이웃 시각화(Neighborhood Visualization)’에서는 검색된 k개의 사례와 질의 인스턴스를 2차원 평면에 배치한다. 배치에는 다차원 스케일링(MDS)을 사용해 거리 함수를 보존하도록 좌표를 계산한다. 각 점은 색상·형태로 실제 라벨(사기/비사기)을 표시한다. 시각화는 전문가가 “대다수 이웃이 같은 라벨이면 모델 예측이 신뢰할 만하다”, “많은 거짓 양성 이웃이 존재하면 경계가 낮다”는 직관을 활용하도록 설계되었다. 또한, 시간 정보를 색상 그라데이션이나 필터로 추가해 최신 사례에 가중치를 둘 수 있는 확장 가능성을 제시한다.
실험은 두 부분으로 나뉜다. 첫 번째는 시뮬레이션 사용자 실험으로, 가상의 분석가가 다양한 거리 함수 조합을 사용해 알림을 처리했을 때 정확도와 처리 속도를 측정한다. 결과는 SHAP 기반 거리, 특히 로컬 가중 거리(d_L)를 검색 단계와 시각화 단계 모두에 적용했을 때 가장 높은 정확도와 가장 낮은 오탐률을 보였으며, 전통적인 피처값 기반 거리(d_F)는 성능이 현저히 낮았다. 두 번째는 네덜란드의 대형 은행에서 실제 사기 분석가 10명을 대상으로 한 사용성 테스트이다. 분석가들은 인터페이스가 직관적이며, 기존에 SHAP 설명만 제공될 때보다 의사결정 시간이 평균 15% 감소하고, 정확도는 8% 향상되었다고 보고했다. 또한, 시스템이 “신뢰할 수 있는” 사례를 제시함으로써 분석가들의 업무 부담이 감소했다고 평가했다.
논문의 주요 기여는 다음과 같다. 첫째, 모델 설명을 거리 함수에 직접 통합함으로써 기존 k‑NN 기반 CBR의 한계를 극복하고, 사기 탐지와 같이 불균형·시계열 특성이 강한 도메인에 특화된 프레임워크를 제공한다. 둘째, 시뮬레이션과 현장 실험을 통해 제안 방법이 실제 업무 효율성을 높인다는 실증적 근거를 제시한다. 셋째, 시각화 단계에서 MDS와 색상·형태를 활용한 직관적인 UI 설계가 전문가의 신뢰성을 향상시킨다는 점을 확인한다. 한계점으로는 사례 베이스가 충분히 크고 라벨이 정확히 알려진 경우에만 적용 가능하다는 점, 그리고 2차원 시각화가 고차원 특성 정보를 완전히 전달하지 못한다는 점을 들 수 있다. 향후 연구에서는 (a) 동적 사례 베이스 관리(샘플링·프로토타이핑) 기법, (b) 시간 가중 시각화와 필터링, (c) 반사실(counterfactual) 사례를 추가해 결정 경계 이해를 돕는 기능을 도입할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기