에이전트 스킬 현황: 대규모 데이터 분석으로 본 Claude 스킬 생태계

에이전트 스킬 현황: 대규모 데이터 분석으로 본 Claude 스킬 생태계
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 2026년 2월 기준 40,285개의 공개 Claude 스킬을 수집·분석하여, 스킬 출현이 급격히 폭발하는 패턴, 소프트웨어 엔지니어링 중심의 내용 집중, 설치·출시 불균형, 토큰 길이의 헤비테일 분포, 중복·중복도 높은 현황, 그리고 시스템 수준 행동을 허용하는 안전 위험을 규명한다.

상세 분석

데이터 수집 단계에서 저자들은 skills.sh 마켓플레이스의 메타데이터를 크롤링하고, 각 스킬을 SKILL.md와 JSON 형태로 정규화하였다. 40,285개의 레코드 중 2026년 1월 16일 기준 2,179개에서 2월 5일 기준 40,285개로 급증했으며, 하루 평균 1,918개가 추가되는 등 ‘버스트(burst)’ 형태의 성장 곡선을 보였다. 특히 1월 25일에 8,857개가 한 번에 등록돼 전체 신규 스킬의 23 %를 차지했고, 이는 같은 시기에 GitHub 스타가 급증한 OpenClaw 프로젝트와 시계열적으로 일치한다. 이는 커뮤니티 관심이 스킬 공급을 촉진한다는 가설을 뒷받침한다.

토큰 길이 분석에서는 tiktoken(o200k_base) 인코더를 사용해 각 SKILL.md를 토큰화했으며, 평균 1,895 토큰, 중앙값 1,414 토큰이라는 짧은 분포를 확인했다. 90 %가 3,935 토큰 이하, 99 %가 9,253 토큰 이하에 머물렀지만, 최대 116,239 토큰에 달하는 초장 스킬도 존재해 프롬프트 예산을 초과할 위험이 있다. 이러한 초장 스킬은 다수의 서브모듈·문서·템플릿을 한 파일에 포함한 형태로, 실제 사용 시 모듈화·검색 기반 로딩이 필요함을 시사한다.

중복도 측정에서는 두 가지 방법을 적용했다. 첫째는 이름 기반 정규화(대소문자 무시·특수문자 제거)로 정확히 일치하는 스킬을 그룹화했으며, 전체의 46.3 %가 하나 이상의 동일 이름을 공유했다. 2배 중복 그룹이 18.7 %를 차지하고, 59배, 1049배 그룹이 각각 14.3 %와 8.8 %를 차지한다. 둘째는 BAAI/bge-m3 임베딩을 이용한 의미적 유사도 분석을 수행했지만, 설명이 짧고 템플릿화된 경우 의미적 구분이 어려워 주요 결과는 이름 기반 매칭에 의존했다. 중복이 높은 이유는 동일 작업 흐름을 재패키징하거나 자동화된 템플릿 배포가 빈번히 이루어지기 때문이다. 이는 검색 비용을 증가시키고, 품질 신호가 분산돼 최적 스킬이 사용자에게 도달하기 어렵게 만든다.

스킬 기능 분류에서는 6대 카테고리와 20개 세부 서브카테고리를 정의했다. 소프트웨어 엔지니어링(코드 생성, 디버그·분석, 버전 관리, 인프라) 카테고리가 전체 스킬의 50 % 이상을 차지했으며, 평균 토큰 수와 설치 횟수 모두 높은 편이다. 정보 검색(웹·학술 검색, 실시간 데이터 스트림)과 생산성 도구(팀 커뮤니케이션, 문서 시스템, 작업 관리)도 상당한 비중을 차지한다. 반면 데이터 시각화·처리, 이미지·텍스트 생성 등 콘텐츠 제작 영역은 상대적으로 적지만 평균 토큰 길이가 길어 복잡한 로직을 포함하고 있음을 확인했다.

수요‑공급 격차 분석에서는 각 카테고리별 설치 횟수(다운로드)와 스킬 수를 비교했을 때, 소프트웨어 엔지니어링 카테고리는 공급이 풍부하지만 설치 비율이 낮아 과잉 공급 현상이 뚜렷했다. 반대로 정보 검색과 콘텐츠 생성 카테고리는 스킬 수는 적지만 설치 비율이 높아 높은 수요를 나타냈다. 이는 개발자들이 기존에 잘 정의된 엔지니어링 작업을 스킬 형태로 과다하게 포장하는 반면, 사용자들은 실제로 데이터 검색·생성 기능을 더 선호한다는 점을 시사한다.

안전성 검토에서는 스킬 메타데이터와 코드 분석을 통해 위험 수준을 라벨링했으며, 대부분은 ‘Low’ 위험에 해당했지만, 전체의 약 7 %가 시스템 레벨 명령(파일 삭제, 프로세스 실행, 네트워크 호출 등)을 수행할 수 있는 ‘Medium/High’ 위험으로 분류되었다. 특히 명령 실행, 로컬 파일 제어, 메모리·인지 스킬이 위험군에 집중돼 있었다. 이러한 스킬은 권한 관리·샌드박싱이 미비한 경우 악용 가능성이 크므로, 플랫폼 차원의 위험 라벨링 강화와 사용자 동의 절차가 필요하다.

전체적으로 본 연구는 에이전트 스킬 생태계가 급속히 성장하면서도 기능 중복·품질 분산·안전 위험이라는 구조적 문제를 동시에 안고 있음을 밝혀냈다. 향후 표준화된 스킬 레지스트리, 버전 관리, 자동 중복 탐지·제거, 그리고 위험 기반 접근 제어 메커니즘이 필요하다는 결론을 도출한다.


댓글 및 학술 토론

Loading comments...

의견 남기기