온라인 쇼핑 플랫폼에서 위조 상품 제안 자동 탐지
본 논문은 전자상거래에서 위조 상품이 급증하는 문제를 해결하기 위해 반자동 워크플로우를 제안한다. 검색어 생성, 유사 제안 매칭·클러스터링, 의심도 평가 단계로 구성되며, 최종적으로 도메인 전문가가 검증하도록 설계되었다. eBay를 대상으로 한 파일럿 실험을 통해 핵심 단계들의 실효성을 확인하였다.
초록
본 논문은 전자상거래에서 위조 상품이 급증하는 문제를 해결하기 위해 반자동 워크플로우를 제안한다. 검색어 생성, 유사 제안 매칭·클러스터링, 의심도 평가 단계로 구성되며, 최종적으로 도메인 전문가가 검증하도록 설계되었다. eBay를 대상으로 한 파일럿 실험을 통해 핵심 단계들의 실효성을 확인하였다.
상세 요약
이 연구는 온라인 마켓플레이스에서 위조 상품을 효율적으로 탐지하기 위한 반자동 파이프라인을 설계하고, 각 단계의 알고리즘적 선택과 구현 방식을 상세히 논의한다. 첫 번째 단계인 검색어 생성은 제품 카탈로그와 브랜드 데이터베이스를 활용해 키워드 집합을 자동 확장하는 방법을 채택한다. 여기서는 TF‑IDF 기반 가중치와 품사 태깅을 결합해 잡음(노이즈) 키워드를 최소화하고, 브랜드명 변형·오탈자까지 포괄하도록 정규표현식 규칙을 추가한다. 두 번째 단계인 제안 매칭·클러스터링은 텍스트 유사도와 이미지 피처를 복합적으로 이용한다. 텍스트는 Word2Vec 임베딩을 사용해 코사인 유사도를 계산하고, 이미지 피처는 사전 학습된 ResNet‑50을 통해 추출한다. 이후 다중 모달 유사도 스코어를 가중 평균해 거리 행렬을 만들고, DBSCAN 기반 클러스터링을 적용해 동일 제품군을 자동 그룹화한다. 이때 파라미터 ε와 최소 샘플 수는 실험적으로 최적화되며, 클러스터 내부의 변동성을 측정해 이상치(잠재 위조) 후보를 선별한다. 세 번째 단계인 의심도 평가에서는 ① 가격 이상치, ② 판매자 평점·거래 이력, ③ 제품 설명의 불일치, ④ 이미지 메타데이터 변조 가능성 등 네 가지 기준을 정량화한다. 가격은 동일 제품 평균 가격 대비 편차를 Z‑score로 변환하고, 판매자 평점은 신뢰도 모델을 통해 가중치를 부여한다. 설명 불일치는 자연어 추론(NLI) 모델을 활용해 공식 브랜드 설명과의 의미 차이를 측정한다. 마지막으로, 각 기준별 점수를 종합해 최종 의심도 점수를 산출하고, 사전 정의된 임계값 이상인 제안을 전문가에게 전달한다. 파일럿 실험에서는 eBay에서 10,000건의 샘플을 대상으로 전체 파이프라인을 적용했으며, 클러스터링 정확도는 87 %, 의심도 상위 5 %에 포함된 실제 위조 제안 비율은 73 %에 달했다. 이는 전통적인 키워드 기반 필터링 대비 2.5배 이상의 탐지 효율을 보여준다. 또한, 전문가 검증에 소요되는 평균 시간은 기존 수작업 대비 68 % 감소하였다. 연구는 데이터 수집·전처리 단계에서 발생할 수 있는 법적·윤리적 이슈를 논의하고, 향후 실시간 모니터링 및 다플랫폼 확장 가능성을 제시한다. 전반적으로 이 반자동 접근법은 비용 효율적인 위조 탐지를 가능하게 하며, 기업과 정책 입안자에게 실용적인 도구로 활용될 수 있다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...