데이터 마이닝 기반 사기 탐지 연구 종합 조사

초록

본 논문은 지난 10년간 발표된 사기 탐지 관련 기술·리뷰 논문을 체계적으로 분류·비교·요약한다. 전문 사기범의 정의와 사기의 주요 유형·세부 유형을 정형화하고, 각 산업에서 수집되는 데이터 증거의 특성을 제시한다. 비즈니스 관점에서 비용 절감을 목표로 데이터 마이닝 기법을 적용한 방법론과 그 한계를 논의하며, 기존 리뷰와 달리 타 분야의 대체 데이터와 솔루션까지 포괄한다.

상세 요약

이 조사에서는 사기 탐지 연구를 크게 네 가지 축으로 정리한다. 첫째, 사기범의 프로파일링을 위해 ‘전문 사기범(Professional Fraudster)’이라는 개념을 도입하고, 이들의 행동 패턴, 동기, 기술 수준을 기존 범죄학 이론과 연결시켜 모델링한다. 둘째, 사기의 유형을 ‘금융 사기’, ‘보험 사기’, ‘전자상거래 사기’, ‘소셜 네트워크 사기’ 등으로 구분하고, 각 유형마다 ‘신원 위조’, ‘거래 변조’, ‘청구 조작’ 등 세부 서브타입을 정의한다. 이러한 계층적 분류는 데이터 라벨링과 평가 지표 설계에 직접적인 영향을 미친다. 셋째, 데이터 증거의 특성을 산업별로 상세히 분석한다. 예를 들어, 신용카드 사기에서는 거래 시점의 위치, 금액, 시간 간격 등 시계열 특성이 중요하고, 보험 사기에서는 청구서 이미지, 의료 기록, 진단 코드 등이 비정형 데이터로 활용된다. 논문은 정형·비정형 데이터 결합, 그래프 기반 관계 분석, 텍스트 마이닝 등 다중 모달 데이터를 통합하는 최신 접근법을 강조한다. 넷째, 데이터 마이닝 기법을 적용한 실제 모델들을 비교한다. 전통적인 로지스틱 회귀와 의사결정 트리부터 최신 딥러닝(예: LSTM, 그래프 신경망)까지 성능, 해석 가능성, 실시간 적용 가능성 측면에서 장단점을 정리한다. 특히, 불균형 데이터 처리 방법(오버샘플링, 언더샘플링, 비용 민감 학습)과 사후 검증(Explainable AI) 기법이 실무 적용에 필수적임을 강조한다. 마지막으로, 기존 리뷰와 차별화되는 점은 타 분야(예: 사이버 보안, 의료 진단)에서 사용되는 비정형 로그, 센서 데이터, 소셜 미디어 피드 등을 사기 탐지에 재활용하는 방안을 제시한다. 이는 데이터 다양성을 확대하고, 새로운 사기 패턴을 조기에 탐지할 수 있는 가능성을 열어준다. 전체적으로 이 논문은 사기 탐지 연구의 현황을 포괄적으로 정리함과 동시에, 향후 연구가 나아가야 할 데이터 소스 확장과 모델 해석 가능성 강화라는 두 축을 명확히 제시한다.

초록

상세 요약

📜 논문 원문 (영문)