통합 피싱 퀴싱 첨부 파일 탐지를 위한 CICTrap4Phish 데이터셋
초록
본 논문은 워드, 엑셀, PDF, HTML, QR 코드 등 5가지 주요 파일 형식을 포함한 통합 피싱·퀴싱 첨부 파일 데이터셋 CIC‑Trap4Phish을 구축하고, 각 형식별 정적 특징 추출·선택 파이프라인과 경량 머신러닝·딥러닝 모델을 적용해 높은 탐지 정확도를 달성한 연구이다.
상세 분석
CIC‑Trap4Phish은 기존 데이터셋이 특정 파일 형식에 국한되거나 라벨링이 일관되지 않은 문제를 해결하기 위해 설계되었다. 악성 샘플은 Malware Bazaar, PhishTank, PDFMal2022 등 신뢰할 수 있는 공개 리포지터리에서 수집했으며, 정상 샘플은 구글·위키피디아 크롤링, 자체 생성 등을 통해 균형 있게 구성하였다. 총 5가지 형식(Word, Excel, PDF, HTML, QR) 각각에 대해 정적 분석을 수행했는데, 파일을 실행하거나 열지 않고도 구조적 메타데이터, 문자열 패턴, 객체 개수 등 30~40개의 원시 특징을 추출하였다. 이후 SHAP 기반 설명가능성 분석과 전통적인 중요도 측정을 결합해 각 형식별 상위 10개의 핵심 특징을 선정하였다.
선택된 특징은 경량 모델인 Random Forest, XGBoost, Decision Tree에 입력되어 5‑fold 교차 검증 및 별도 테스트 셋에서 96% 이상(형식에 따라 92~99%)의 정확도와 높은 F1‑score를 기록했다. 특히 Word와 PDF에서는 메타데이터 위변조와 매크로 존재 여부가, Excel에서는 셀 수식 및 매크로 스트링, HTML에서는 스크립트 태그와 외부 리소스 링크가 주요 판단 근거가 되었다.
QR 코드(Quishing) 탐지는 두 갈래로 접근하였다. 첫 번째는 이미지 기반으로 CNN(ResNet‑18 변형)을 사용해 QR 코드의 패턴·색상·노이즈 특성을 학습했으며, 98% 이상의 정확도를 달성했다. 두 번째는 QR 코드에서 디코딩된 URL 문자열을 토큰화한 뒤, 경량 언어 모델(BERT‑Tiny, DeBERTa‑v3, ModernBERT, DeepSeek‑R1)으로 문맥적 악성 특성을 평가하였다. URL 길이, 도메인 엔트로피, 의심스러운 파라미터 패턴 등이 높은 중요도로 나타났다.
전체 실험 결과는 정적 특징 기반 경량 모델이 동적 분석에 비해 실행 위험과 비용을 크게 낮추면서도 실무 적용에 충분한 성능을 제공함을 입증한다. 또한 QR 코드 탐지에 이미지와 텍스트 두 축을 결합함으로써 기존 단일 방식보다 견고한 방어 체계를 제시한다. 데이터셋은 공개되어 연구 재현성과 향후 멀티포맷 피싱 방어 연구에 기반이 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기