온라인 마켓플레이스 사기 판매자 탐지를 위한 서포트 벡터 머신
초록
본 논문은 온라인 마켓플레이스에서 저가로 물품을 제시하고 실제 배송을 하지 않는 사기 판매자를 식별하기 위해 과거 거래 데이터와 판매자 행동 특성을 활용한 서포트 벡터 머신(SVM) 모델을 제안한다. 데이터 전처리, 특징 선택, 모델 학습 및 평가 과정을 상세히 기술하고, 실험 결과 기존 규칙 기반 방법 대비 높은 정확도와 재현율을 달성함을 입증한다.
상세 분석
논문은 먼저 전자상거래 시장의 성장과 함께 증가하는 판매자 사기의 유형을 개괄한다. 특히 “상품을 저가에 제시하고 배송을 하지 않는” 형태의 사기가 주요 대상이며, 기존 연구는 주로 구매자 사기에 초점을 맞추어 왔음에도 불구하고 판매자 측 사기에 대한 체계적인 탐지 모델은 부족한 실정이다. 이를 보완하기 위해 저자는 머신러닝, 특히 이진 분류에 강점이 있는 서포트 벡터 머신을 선택한다. SVM은 고차원 특징 공간에서 마진을 최대화하는 초평면을 찾아내어 과적합 위험을 낮추는 장점이 있다.
데이터 수집 단계에서는 플랫폼 내부 로그, 주문 이력, 반품·취소 기록, 고객 평점, 채팅 내용 등을 통합하여 10만 건 이상의 라벨링된 샘플을 구축한다. 라벨은 사기 신고 여부와 사후 조사 결과를 기반으로 ‘사기’와 ‘정상’으로 구분한다. 전처리 과정에서는 결측값 보완, 이상치 제거, 범주형 변수의 원-핫 인코딩, 연속형 변수의 정규화를 수행한다. 특징 선택에서는 상관관계 분석과 L1 정규화를 활용해 35개의 핵심 변수를 도출했으며, 여기에는 평균 배송 시간, 주문당 평균 금액, 반품 비율, 고객 불만 키워드 빈도 등이 포함된다.
모델 학습에서는 70% 데이터를 훈련용, 15%를 검증용, 나머지 15%를 테스트용으로 분할한다. 커널 함수는 비선형성을 포착하기 위해 RBF(Radial Basis Function)를 채택했으며, 하이퍼파라미터 C와 γ는 그리드 서치를 통해 최적화하였다. 교차 검증 결과, 최적 모델은 정확도 94.2%, 정밀도 91.8%, 재현율 89.5%, F1 점수 90.6%를 기록하였다. 특히 재현율이 높아 사기 판매자를 놓치지 않는 것이 핵심 목표였음에 비추어 의미 있는 성과다.
비교 실험에서는 기존 규칙 기반 필터링 시스템과 로지스틱 회귀, 랜덤 포레스트와도 대조하였다. 규칙 기반은 정확도 78% 수준에 머물렀으며, 로지스틱 회귀는 85% 정도, 랜덤 포레스트는 90% 정도의 성능을 보였다. SVM이 가장 높은 성능을 보인 이유는 고차원 특징 공간에서 마진을 최적화함으로써 복잡한 비선형 패턴을 효과적으로 포착했기 때문이다.
또한 모델 해석을 위해 SHAP(Shapley Additive Explanations) 값을 분석한 결과, ‘평균 배송 지연 시간’, ‘반품 비율’, ‘고객 불만 키워드 빈도’가 사기 예측에 가장 큰 영향을 미치는 요인으로 나타났다. 이러한 인사이트는 운영팀이 사기 방지 정책을 설계할 때 실질적인 가이드라인을 제공한다.
마지막으로 논문은 실시간 적용 가능성을 논의한다. 모델을 배치 서버에 배포하고 신규 주문이 들어올 때마다 특징을 추출해 즉시 사기 확률을 산출하도록 설계하였다. 임계값을 조정함으로써 사기 탐지 민감도와 고객 경험 간의 트레이드오프를 관리할 수 있다. 전체적으로 데이터 기반 접근과 SVM의 강점을 결합한 본 연구는 온라인 마켓플레이스에서 판매자 사기를 효과적으로 억제할 수 있는 실용적인 솔루션을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기