암호화폐 남용 신고 데이터 정화: LLM 기반 오염 방어
초록
본 논문은 크라우드소싱된 암호화폐 남용 신고 서비스가 겪는 데이터 오염 문제를 정량·정성적으로 분석하고, 대규모 언어 모델(LLM)을 활용한 무지도 분류기를 제안한다. 6년간 289 천 건의 신고를 수집해 스팸 비율, 잘못된 남용 유형 표기, 정상 주소 오인 신고 등을 밝혀냈으며, 제안된 LLM 기반 분류기가 스팸 탐지와 남용 유형 분류에서 기존 감독학습 모델을 크게 능가함을 입증한다. 또한 정제된 데이터로부터 각 남용 유형별 재정적 영향을 재추정해 피해자 보고 손실이 실제 범죄 수익의 1/29에 불과함을 보여준다.
상세 분석
이 연구는 암호화폐 남용 신고 서비스가 제공하는 데이터의 신뢰성을 위협하는 ‘데이터 오염’ 현상을 체계적으로 파악한다. 첫 번째 연구 질문(RQ1)에서는 두 서비스, BitcoinAbuse와 Scam Tracker를 대상으로 289 K 신고를 분석했으며, BitcoinAbuse에서 전체 신고의 10.6 %가 스팸이며, 서비스가 중단 직전에는 75 %에 달한다는 충격적인 결과를 도출했다. 스팸은 주로 자금 회수 사기 광고와 거래소를 테러와 연관짓는 허위 주장으로 구성된다. 반면, Scam Tracker는 수동 검증 덕분에 스팸 비율이 0.4 %에 머물렀다.
두 번째로, 사용자 선택형 남용 유형(BA 타입)의 정확성을 검증하기 위해 19 443개의 신고 설명을 19개의 세부 유형으로 라벨링한 공개 GT 데이터를 구축했다. 클러스터링 기반 자동 라벨링과 전문가 검증을 결합한 이 과정에서, ‘Bitcoin‑Tumbler’, ‘Darknet‑Market’, ‘Ransomware’ 등 3개의 BA 타입이 거의 전부 스팸으로 판명되었으며, ‘Sextortion’만이 비교적 정확했다. 스팸을 제외한 후에도 22 %의 ‘Ransomware’ 신고가 실제로는 ‘Sextortion’으로 재분류되는 등, 사용자 표기가 일관되지 않음을 확인했다.
또한, 92 151개의 Bitcoin 주소 중 91개(0.1 %)가 정상 주소임이 밝혀졌으며, 이들 주소가 전체 입금액의 60 %를 차지한다는 역설적인 현상이 드러났다. 이는 정상 거래소 주소가 오인 신고되는 경우가 많아, 단순 주소 기반 차단이 큰 재정 손실을 초래할 수 있음을 시사한다.
RQ2에서는 무지도 LLM 기반 분류기를 설계했다. 핵심 아이디어는 각 남용 유형에 대한 자연어 정의를 프롬프트에 포함시켜, LLM이 설명 텍스트와 정의를 매칭하도록 하는 것이다. 6개의 LLM(gpt‑4, gpt‑4o, gpt‑4o‑mini, gpt‑3.5, llama3, llama3.1)과 3가지 질의 방식(Zero‑Shot, Few‑Shot, Chain‑of‑Thought) 등을 조합해 최적 설계를 탐색했다. 최종 모델은 F1 = 0.95(내부 검증), F1 = 0.89(Out‑of‑Distribution), 스팸 탐지 F1 = 0.99를 기록했으며, 감독학습 기반 베이스라인(F1 ≈ 0.42)과 단순 LLM 활용(F1 ≈ 0.42)보다 현저히 우수했다. 특히 정의 기반 프롬프트 설계가 성능 향상의 핵심 요인으로 확인되었다.
마지막으로 RQ3에서는 정제된 라벨을 바탕으로 각 남용 유형별 재정적 영향을 추정했다. 피해자 자체 보고 손실은 전체 입금액 대비 1/29 수준에 불과했으며, 투자 사기가 전체 수익의 44 %를 차지해 가장 큰 재정적 영향을 미친다. 반면, 협박(Extortion) 유형은 전환율이 낮지만 대규모 이메일 캠페인으로 약 1 천만 달러의 수익을 창출한다. 이러한 결과는 정책 입안자와 거래소가 신고 데이터만으로 위험을 평가하기엔 한계가 있으며, LLM 기반 정제와 블록체인 거래 분석을 결합해야 함을 강조한다.
전반적으로 이 논문은 (1) 데이터 오염이 실제 재정 손실에 미치는 비대칭적 영향을 정량화하고, (2) 정의 기반 무지도 LLM 분류기가 스팸 및 남용 유형 식별에 뛰어난 성능을 보이며, (3) 정제된 데이터가 암호화폐 범죄 수익 추정에 필수적이라는 세 가지 핵심 메시지를 제공한다. 향후 연구는 실시간 스트리밍 신고에 LLM을 적용해 즉시 오염을 차단하고, 다중 체인(예: 이더리움, 솔라나)으로 확장하는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기