MemeChain 멀티모달 크로스체인 밈코인 데이터셋

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MemeChain은 이더리움, BNB 스마트 체인, 솔라나, Base 네 체인에 걸친 34,988개의 밈코인을 수집한 공개 데이터셋이다. 온‑체인 거래 기록과 함께 웹사이트 HTML, 로고 이미지, SNS 계정 등 오프‑체인 정보를 제공해 멀티모달 포렌식 분석을 가능하게 한다. 분석 결과 5.15%의 토큰이 출시 24시간 내에 거래가 완전히 중단되는 ‘원데이 밈코인’ 현상이 확인되었으며, 다수 프로젝트가 웹 존재조차 없거나 빠르게 폐쇄되는 특징을 보였다.

상세 분석

본 논문은 밈코인 생태계의 고 churn, 저 신뢰성, 그리고 사기 행위가 빈번히 발생한다는 점을 출발점으로, 기존 단일 체인·온‑체인 중심 데이터셋이 포착하지 못하는 ‘시각·텍스트·소셜’ 등 다중 모달 신호를 통합한 새로운 데이터셋을 제시한다. 데이터 수집 파이프라인은 크게 세 단계로 구성된다. 첫 번째 단계에서는 CoinMarketCap, CoinGecko, GeckoTerminal 등 검증된 어그리게이터에서 8,852개의 확정 밈코인을 추출한다. 두 번째 단계에서는 DexScreener와 CoinSniper 같은 DEX 인덱서를 크롤링해 65,021개의 신규 토큰을 확보하고, 이 중 이름 기반 분류를 적용한다. 이름 기반 분류는 검증된 밈코인 명칭에 TF‑IDF 분석을 수행해 126개의 핵심 키워드(예: dog, cat, inu, AI 등)를 도출하고, 해당 키워드가 포함된 토큰을 밈코인 후보로 선정한다. 이 과정에서 엘보우 기법을 활용해 키워드 수를 150에서 126으로 최적화하였다. 추가적으로 .pump 접미사를 가진 주소를 보유한 토큰을 pump.fun 플랫폼에서 직접 수집함으로써, 이름 기반 분류가 놓칠 수 있는 최신 밈 트렌드까지 포괄한다.

세 번째 단계에서는 정밀 필터링을 적용한다. 먼저 CoinMarketCap의 스테이블코인 리스트를 이용해 4개의 스테이블코인을 제거하고, 가격이 $0.80 이상이거나 시가총액이 10⁷ 달러를 초과하는 525개의 고가 토큰을 대상으로 카테고리 검증을 수행해 46개의 비밈코인을 제외한다. 마지막으로 문자열 매칭 기반 블랙리스트를 적용해 ‘staking’, ‘bridged’ 등 비밈 관련 용어가 포함된 토큰을 추가로 배제한다. 결과적으로 34,988개의 고품질 밈코인 데이터가 최종 데이터셋에 포함된다.

데이터셋은 1.46 GB 규모로, 온‑체인 메타데이터(주소, 배포 시점, 유동성 풀 정보 등)와 오프‑체인 아카이브(HTML 소스, 로고 PNG, 트위터·텔레그램·디스코드 링크)를 다중 모달 형태로 저장한다. 이를 통해 연구자는 시계열 거래 패턴과 웹·소셜 신호를 동시에 모델링할 수 있다. 저자들은 ‘One‑Day Meme Coins’라 명명한 현상을 발견했는데, 전체 토큰 중 1,801개(5.15%)가 출시 24시간 이내에 모든 거래가 정지되는 것으로, 이는 기존 연구에서 간과된 초고속 사기의 존재를 시사한다. 또한 웹 인프라 분석 결과, 약 30% 이상의 프로젝트가 웹사이트를 전혀 제공하지 않으며, 존재하는 사이트조차도 배포 직후 48시간 내에 접속 불가 상태가 되는 경우가 빈번했다. 시각적 브랜딩(로고) 역시 저품질 혹은 누락된 사례가 다수였으며, 이는 프로젝트 신뢰성을 판단하는 데 중요한 메타데이터가 부족함을 의미한다.

기술적 관점에서 본 데이터셋은 멀티모달 이상 탐지, 생존 분석(survival analysis), 그리고 초기 사기 탐지 모델 학습에 최적화된 구조를 제공한다. 특히 크로스체인 커버리지는 체인 간 이동 패턴, 가스 비용 차이, 그리고 각 체인별 사기 유형 차이를 비교 연구할 수 있는 기반을 마련한다. 한계점으로는 오프‑체인 데이터 수집 시점의 스냅샷 특성 때문에 시간이 지나면 링크가 죽거나 콘텐츠가 변형될 가능성이 있으며, 자동화된 라벨링 과정에서 발생할 수 있는 오분류 위험이 있다. 향후 연구에서는 지속적인 크롤링 파이프라인 구축과 라벨링 정확도 향상을 위한 머신러닝 기반 텍스트·이미지 분류 모델을 도입하고, 사기 행위와 연관된 네트워크 그래프 분석을 확대할 필요가 있다.

MemeChain 멀티모달 크로스체인 밈코인 데이터셋

초록

상세 분석

댓글 및 학술 토론

의견 남기기