문서 악성코드 탐지를 위한 엔트로피 기반 머신러닝
초록
본 논문은 파일 엔트로피 분포를 이용해 악성 전자문서를 식별하는 ESRMD 프레임워크를 제안한다. 전역 및 구조적 엔트로피 특징을 추출해 형식에 구애받지 않는 탐지를 가능하게 하며, 10,381개의 샘플(악성 51.47%, 정상 48.53%)을 대상으로 실험한 결과 TPR 96.00%, 정밀도 96.69%, ROC AUC 99.2%를 달성하였다. 기존 안티바이러스 엔진 및 도구와 비교했을 때 전반적인 성능 우위를 보였다.
상세 분석
ESRMD(Entropy signal Reflects the Malicious document) 프레임워크는 기존 악성 문서 탐지 기법이 갖는 형식 종속성, 파서 혼란 공격, 그리고 높은 연산 비용이라는 문제점을 해결하고자 설계되었다. 핵심 아이디어는 파일 전체와 구역별(섹션, 스트림 등) 엔트로피 값을 계산하고, 이를 통계적·구조적 특징으로 변환한 뒤 머신러닝 분류기에 입력하는 것이다. 전역 엔트로피는 파일 전체의 무작위성 정도를 나타내며, 악성 문서는 종종 압축, 암호화, 혹은 난수 데이터를 삽입해 엔트로피가 비정상적으로 높아진다. 구조적 엔트로피는 파일 포맷 내부의 구획(예: PDF 객체, Office Open XML 파트)별로 별도 계산해, 특정 구역에 집중된 고엔트로피 패턴을 포착한다. 이러한 두 차원의 특징을 결합함으로써 포맷이 달라도(예: PDF, DOCX, XLS 등) 공통적인 악성 패턴을 학습할 수 있다.
데이터 전처리 단계에서는 파일을 바이트 스트림으로 읽어 슬라이딩 윈도우(예: 256바이트)마다 엔트로피를 구하고, 평균, 표준편차, 최대·최소값, 엔트로피 히스토그램 등을 피처로 추출한다. 또한, 구역 경계 탐지를 위해 파일 포맷별 시그니처(예: PDF %PDF-, OOXML
댓글 및 학술 토론
Loading comments...
의견 남기기