MemeChain 멀티모달 크로스체인 밈코인 데이터셋

MemeChain 멀티모달 크로스체인 밈코인 데이터셋
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MemeChain은 이더리움, BNB 스마트 체인, 솔라나, Base 네 체인에 걸친 34,988개의 밈코인을 수집한 공개 데이터셋이다. 온‑체인 거래 기록과 함께 웹사이트 HTML, 로고 이미지, SNS 계정 등 오프‑체인 정보를 제공해 멀티모달 포렌식 분석을 가능하게 한다. 분석 결과 5.15%의 토큰이 출시 24시간 내에 거래가 완전히 중단되는 ‘원데이 밈코인’ 현상이 확인되었으며, 다수 프로젝트가 웹 존재조차 없거나 빠르게 폐쇄되는 특징을 보였다.

상세 분석

본 논문은 밈코인 생태계의 고 churn, 저 신뢰성, 그리고 사기 행위가 빈번히 발생한다는 점을 출발점으로, 기존 단일 체인·온‑체인 중심 데이터셋이 포착하지 못하는 ‘시각·텍스트·소셜’ 등 다중 모달 신호를 통합한 새로운 데이터셋을 제시한다. 데이터 수집 파이프라인은 크게 세 단계로 구성된다. 첫 번째 단계에서는 CoinMarketCap, CoinGecko, GeckoTerminal 등 검증된 어그리게이터에서 8,852개의 확정 밈코인을 추출한다. 두 번째 단계에서는 DexScreener와 CoinSniper 같은 DEX 인덱서를 크롤링해 65,021개의 신규 토큰을 확보하고, 이 중 이름 기반 분류를 적용한다. 이름 기반 분류는 검증된 밈코인 명칭에 TF‑IDF 분석을 수행해 126개의 핵심 키워드(예: dog, cat, inu, AI 등)를 도출하고, 해당 키워드가 포함된 토큰을 밈코인 후보로 선정한다. 이 과정에서 엘보우 기법을 활용해 키워드 수를 150에서 126으로 최적화하였다. 추가적으로 .pump 접미사를 가진 주소를 보유한 토큰을 pump.fun 플랫폼에서 직접 수집함으로써, 이름 기반 분류가 놓칠 수 있는 최신 밈 트렌드까지 포괄한다.

세 번째 단계에서는 정밀 필터링을 적용한다. 먼저 CoinMarketCap의 스테이블코인 리스트를 이용해 4개의 스테이블코인을 제거하고, 가격이 $0.80 이상이거나 시가총액이 10⁷ 달러를 초과하는 525개의 고가 토큰을 대상으로 카테고리 검증을 수행해 46개의 비밈코인을 제외한다. 마지막으로 문자열 매칭 기반 블랙리스트를 적용해 ‘staking’, ‘bridged’ 등 비밈 관련 용어가 포함된 토큰을 추가로 배제한다. 결과적으로 34,988개의 고품질 밈코인 데이터가 최종 데이터셋에 포함된다.

데이터셋은 1.46 GB 규모로, 온‑체인 메타데이터(주소, 배포 시점, 유동성 풀 정보 등)와 오프‑체인 아카이브(HTML 소스, 로고 PNG, 트위터·텔레그램·디스코드 링크)를 다중 모달 형태로 저장한다. 이를 통해 연구자는 시계열 거래 패턴과 웹·소셜 신호를 동시에 모델링할 수 있다. 저자들은 ‘One‑Day Meme Coins’라 명명한 현상을 발견했는데, 전체 토큰 중 1,801개(5.15%)가 출시 24시간 이내에 모든 거래가 정지되는 것으로, 이는 기존 연구에서 간과된 초고속 사기의 존재를 시사한다. 또한 웹 인프라 분석 결과, 약 30% 이상의 프로젝트가 웹사이트를 전혀 제공하지 않으며, 존재하는 사이트조차도 배포 직후 48시간 내에 접속 불가 상태가 되는 경우가 빈번했다. 시각적 브랜딩(로고) 역시 저품질 혹은 누락된 사례가 다수였으며, 이는 프로젝트 신뢰성을 판단하는 데 중요한 메타데이터가 부족함을 의미한다.

기술적 관점에서 본 데이터셋은 멀티모달 이상 탐지, 생존 분석(survival analysis), 그리고 초기 사기 탐지 모델 학습에 최적화된 구조를 제공한다. 특히 크로스체인 커버리지는 체인 간 이동 패턴, 가스 비용 차이, 그리고 각 체인별 사기 유형 차이를 비교 연구할 수 있는 기반을 마련한다. 한계점으로는 오프‑체인 데이터 수집 시점의 스냅샷 특성 때문에 시간이 지나면 링크가 죽거나 콘텐츠가 변형될 가능성이 있으며, 자동화된 라벨링 과정에서 발생할 수 있는 오분류 위험이 있다. 향후 연구에서는 지속적인 크롤링 파이프라인 구축과 라벨링 정확도 향상을 위한 머신러닝 기반 텍스트·이미지 분류 모델을 도입하고, 사기 행위와 연관된 네트워크 그래프 분석을 확대할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기