AI 기반 다계층 악성코드·피싱 탐지 프레임워크 SecureScan

AI 기반 다계층 악성코드·피싱 탐지 프레임워크 SecureScan
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SecureScan은 로지스틱 회귀, 휴리스틱 필터링, VirusTotal 위협 인텔리전스 연동을 삼중 레이어로 결합한 경량 AI 탐지 시스템이다. 기존 시그니처 기반 IDS의 한계를 극복하고, 확률 보정과 그레이‑존 로직을 도입해 오탐을 최소화한다. 93.1% 정확도와 0.87/0.92의 정밀도·재현율을 달성했으며, 딥러닝 모델에 비해 연산 비용이 크게 낮다.

상세 분석

SecureScan은 세 단계의 파이프라인으로 설계되었다. 첫 번째 레이어는 URL·파일 해시의 길이, 도메인 구조, 의심스러운 키워드 등 정형 규칙을 적용해 명백히 악성인 샘플을 빠르게 차단한다. 두 번째 레이어에서는 50,000 차원의 TF‑IDF 문자 n‑그램을 입력으로 로지스틱 회귀 모델을 학습한다. 모델은 L2 정규화와 교차 검증을 통해 과적합을 방지하고, Platt 스케일링을 이용해 확률을 보정한다. 보정된 확률은 0.60 이상을 악성, 0.45 이하를 정상으로 분류하고, 0.45‑0.55 구간을 ‘그레이‑존’으로 지정한다. 그레이‑존에 진입한 샘플은 세 번째 레이어에서 VirusTotal API를 호출해 엔진 집계, 태그, 최신 분석 시각 등을 종합한다. 양쪽 결과가 일치하면 최종 악성으로 확정하고, VirusTotal이 탐지하지 않으면 ‘안전(검증)’으로 다운그레이드한다. 실험에서는 651,191개의 라벨링된 데이터(악성 223,088, 정상 428,103)를 80/20 비율로 나누어 10‑폴드 교차 검증을 수행했으며, 전체 정확도 93.1%, 정밀도 0.87, 재현율 0.92를 기록했다. 특히 그레이‑존 로직 덕분에 오탐 비율이 기존 ML 기반 시스템 대비 30% 이상 감소했으며, 추론 지연도 15 ms 수준으로 실시간 적용이 가능했다. 모델 자체는 경량 로지스틱 회귀이지만 외부 위협 인텔리전스와 결합함으로써 딥러닝 기반 탐지기와 동등한 신뢰성을 확보했다. 한계점으로는 VirusTotal 의존도가 높아 API 호출량 제한 시 성능 저하가 발생할 수 있고, 새로운 변종에 대한 일반화는 여전히 데이터 품질에 좌우된다는 점이다. 향후 연구에서는 동적 행동 분석과 멀티‑모델 앙상블을 도입해 레이어 2의 특징 표현을 강화하고, 비용 효율적인 캐시 메커니즘으로 외부 API 호출을 최소화하는 방안을 모색한다.


댓글 및 학술 토론

Loading comments...

의견 남기기