그레이스케일 바이너리 이미지로 포장 악성코드 탐지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 PE 파일을 바이트 플롯이라는 그레이스케일 이미지로 변환한 뒤, Gabor 제트 특징과 전이학습 기반 CNN(VGG16, DenseNet121)을 이용해 포장 여부를 자동 분류한다. 클래식 머신러닝 모델과 비교했을 때 딥러닝 모델이 전반적으로 높은 정확도와 균형 잡힌 정밀·재현율을 보였으며, 미지의 패커에도 강인한 일반화 능력을 입증하였다.

상세 분석

이 논문은 포장 실행 파일을 정적 분석 단계에서 빠르게 식별하기 위한 새로운 시각적 접근법을 제시한다. 먼저 바이너리 데이터를 8비트 값 그대로 2차원 행렬로 매핑해 그레이스케일 이미지(바이트 플롯)를 생성한다. 이미지화 과정에서 파일 크기에 따라 행 길이를 고정하고, 남는 부분은 0으로 패딩하거나 마지막 행을 절단하는 방식을 사용해 일관된 입력 형태를 만든다. 이렇게 만든 이미지에는 섹션 크기, 엔트로피, 압축 패턴 등 포장 특유의 텍스처와 주파수 변동이 시각적으로 드러난다.

전통적인 특징 추출기로는 Gabor 필터를 적용해 다중 스케일·다중 방향의 제트 특징을 뽑아냈으며, 이를 Random Forest, SVM, XGBoost 등 8가지 머신러닝 알고리즘에 입력했다. Gabor 기반 특징은 포장된 파일의 고주파 텍스처를 효과적으로 포착해 평균 85% 수준의 정확도를 기록했지만, 모델 복잡도와 하이퍼파라미터 튜닝에 따라 성능 편차가 크다.

딥러닝 측면에서는 ImageNet 사전학습 가중치를 갖는 VGG16과 DenseNet‑121을 전이학습하였다. 초기 5개 컨볼루션 블록을 고정하고, 최상위 전역 평균 풀링 뒤에 2개의 완전 연결층을 추가해 포장/비포장 이진 분류를 수행한다. 학습에는 Adam 옵티마이저와 1e‑4 학습률, 배치 크기 32, 30 epoch을 사용했으며, 데이터 증강으로 회전·좌우반전·노이즈 추가를 적용해 과적합을 방지했다. 결과적으로 VGG16은 재현율 96.2%, 정밀도 94.8%를, DenseNet‑121은 정밀도 96.5%, 재현율 94.9%를 달성해 전통 모델 대비 8~12%p 상승했다. 특히 DenseNet‑121은 거짓 양성 비율이 낮아 실무 배포 시 오탐 감소에 유리하고, VGG16은 미지의 패커에 대한 탐지율이 약간 더 높아 보완적인 역할을 할 수 있다.

일반화 실험에서는 학습에 포함되지 않은 5개의 최신 상용·오픈소스 패커(예: UPX‑latest, Themida‑v4 등)를 별도 테스트셋으로 사용했으며, 두 CNN 모델 모두 90% 이상의 F1 점수를 유지했다. 이는 이미지 기반 특징이 패커 종류에 구애받지 않고 압축·암호화 패턴을 포착한다는 점을 시사한다.

한계점으로는 이미지 해상도 선택이 성능에 민감하고, 매우 큰 실행 파일을 처리할 때 메모리 요구량이 급증한다는 점이다. 또한, 악성코드가 의도적으로 이미지 변환에 혼란을 주는 패킹 기법(예: 무작위 바이트 삽입)에는 아직 취약할 수 있다. 향후 연구에서는 다채널(그레이스케일+엔트로피) 이미지와 멀티스케일 CNN, 그리고 동적 분석과 결합한 하이브리드 모델을 탐색할 필요가 있다.

그레이스케일 바이너리 이미지로 포장 악성코드 탐지

초록

상세 분석

댓글 및 학술 토론

의견 남기기