협업 사이버 위협 분석을 위한 자동 데이터셋 생성 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 공개된 보안 보고서와 악성코드 저장소에서 위협 정보를 자동으로 수집·구조화하여 64만 건 이상의 레코드를 제공하는 CTIMiner 시스템을 제안한다. 데이터 접근성 문제를 해소하고, 사이버 위협 인텔리전스(CTI) 분석 연구를 촉진하기 위한 공개 데이터셋과 소스 코드를 제공한다.

상세 분석

CTIMiner는 사이버 위협 분석에 필요한 대규모 고품질 데이터를 자동으로 구축하는 파이프라인을 제시한다. 먼저 웹 크롤러가 2008년 1월부터 2019년 6월까지 발표된 612개의 보안 보고서를 수집한다. 보고서 본문에서 IOC(Indicator of Compromise)와 같은 핵심 메타데이터를 추출하기 위해 정규표현식 기반 파싱 엔진과 자연어 처리(NLP) 모델을 결합한다. 추출된 IOC는 악성코드 샘플 해시, 도메인, IP 주소, 파일 경로 등 다양한 유형으로 정규화된다. 이후 악성코드 리포지터리(예: VirusTotal, MalShare)와 연동하여 해당 IOC와 연관된 추가 샘플 메타데이터를 자동으로 다운로드한다. 모든 레코드는 관계형 데이터베이스에 ‘보고서‑IOC‑샘플’ 3계층 구조로 저장되며, 각 엔티티는 고유 식별자와 타임스탬프, 출처 정보를 포함한다. 데이터 품질을 검증하기 위해 중복 제거, 형식 오류 검출, 그리고 출처 신뢰도 점수를 부여하는 후처리 과정을 거친다. 최종 데이터셋은 약 640,000개의 레코드와 1.2TB 이상의 원시 파일을 포함한다. 통계 분석 결과, 보고서당 평균 1,045개의 IOC가 추출되며, 악성코드 해시가 전체의 42%, 도메인이 31%를 차지한다는 특징이 드러난다. 이러한 구조화된 데이터는 공격 체인 재구성, 공격자 행위 패턴 분석, 그리고 예측 모델 학습 등에 활용될 수 있다. 시스템은 오픈소스로 공개돼 연구자들이 자체 크롤링 범위를 확대하거나 파싱 규칙을 커스터마이징할 수 있도록 설계되었다. 그러나 자동 파싱의 한계로 인해 다국어 보고서나 비표준 형식에서는 누락이 발생할 수 있으며, 악성코드 리포지터리 API 호출 제한이 데이터 최신성에 영향을 미친다. 향후에는 딥러닝 기반 엔티티 추출과 실시간 스트리밍 수집을 도입해 데이터 신뢰성과 시의성을 강화할 계획이다.

협업 사이버 위협 분석을 위한 자동 데이터셋 생성 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기