KDA 기반 전자거래 사기 탐지와 동적 모델링 시스템
초록
본 연구는 은행 제공 데이터를 활용해 RapidMiner로 구현한 KDA(K‑means, DBSCAN, Agglomerative) 혼합 클러스터링 모델을 제안한다. 온라인에서는 68.75%, 오프라인에서는 81.25%의 사기 거래 탐지율을 달성했으며, 동적 모델 업데이트와 의사결정 지원 시스템을 결합해 실시간 사기 방지에 기여한다.
상세 분석
본 논문은 전자금융 거래 사기 탐지에 클러스터링 기반 데이터 마이닝 기법을 적용한 점에서 의의가 있다. 저자들은 K‑means, DBSCAN, Agglomerative 세 가지 군집 알고리즘을 조합한 KDA 모델을 설계하고, RapidMiner 워크플로우를 통해 전처리·특징 선택·모델 학습·평가 과정을 자동화하였다. 데이터는 은행으로부터 제공받은 실제 거래 로그이며, 거래 금액, 시간, 거래 유형, 고객 프로파일 등 다변량 특성을 포함한다. 전처리 단계에서 결측치 보간, 이상치 제거, 정규화가 수행되었으며, 특히 DBSCAN을 이용해 밀도 기반 노이즈 포인트를 사전 필터링함으로써 K‑means의 군집 중심 왜곡을 최소화하였다. 이후 Agglomerative 클러스터링을 적용해 계층적 구조를 파악하고, 최종적으로 다중 군집 결과를 앙상블 방식으로 결합해 사기 가능성을 점수화한다.
성능 평가는 온라인(실시간 스트리밍) 모드와 오프라인(배치) 모드로 구분했으며, 각각 68.75%와 81.25%의 탐지율을 보고한다. 이때 정밀도·재현율·F1-score 등 다중 지표를 제시했지만, 구체적인 혼동 행렬이나 ROC 곡선이 누락돼 모델의 실제 운영 위험성을 완전히 평가하기는 어렵다. 또한 데이터셋 규모와 클래스 불균형 비율이 명시되지 않아 결과의 일반화 가능성을 판단하기 힘들다.
동적 모델링 측면에서는 새로운 거래가 유입될 때마다 KDA 모델을 재학습하거나 파라미터를 조정하는 메커니즘을 제안했지만, 재학습 주기, 연산 비용, 시스템 지연 시간 등에 대한 정량적 분석이 부족하다. RapidMiner 기반 구현은 프로토타입 수준에서는 빠른 실험을 가능하게 하지만, 대규모 실시간 서비스에 적용하려면 Java/Scala 기반 스트리밍 엔진으로의 전환이 필요할 것으로 보인다.
한계점으로는 (1) 사기 라벨링이 은행 내부 규칙에 의존해 주관적일 수 있음, (2) 특징 엔지니어링이 도메인 전문가의 직관에 크게 의존해 재현성이 낮음, (3) 모델 설명 가능성(Explainability)이 부족해 금융 규제 환경에서 활용이 제한될 수 있다. 향후 연구에서는 딥러닝 기반 시계열 모델과 그래프 네트워크를 결합해 복합 패턴을 포착하고, SHAP·LIME 등 설명 기법을 도입해 투명성을 강화하는 것이 바람직하다.
댓글 및 학술 토론
Loading comments...
의견 남기기