DomURLs BERT: 악성 도메인·URL 탐지를 위한 사전학습 BERT 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다국어 URL·도메인·DGA 데이터를 활용해 마스크드 언어 모델링(MLM) 방식으로 사전학습한 BERT 기반 인코더인 DomURLs_BERT를 제안한다. 경량 전처리와 도메인‑특화 토크나이저를 사용해 다양한 악성 도메인·URL 분류 작업(피싱, 멀웨어, DGA, DNS 터널링)에서 기존 문자‑기반 딥러닝 모델 및 사이버보안 전용 BERT 모델을 능가하는 성능을 보였다.

상세 분석

DomURLs_BERT는 기존 사이버보안 전용 BERT 모델이 주로 피싱 URL에 초점을 맞춘 반면, 도메인 이름과 URL 모두를 포괄하는 대규모 다국어 코퍼스를 이용해 사전학습했다. 전처리 단계에서는 프로토콜을 제거하고, 도메인·경로를 각각

DomURLs BERT: 악성 도메인·URL 탐지를 위한 사전학습 BERT 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기