2024년 제로데이 취약점 공개 동향과 심각도 예측 모델 분석
초록
본 논문은 2024년 1월‑4월 사이 ZDI에 보고된 415건의 제로데이 취약점을 대상으로, 벤더별 심각도 분포와 취약점 설명 텍스트에서 고위험을 예측할 수 있는 특징을 탐색한다. 구조화된 메타데이터와 비구조화된 설명을 결합한 머신러닝·딥러닝 모델을 비교 평가하고, 클래스 불균형 상황에서 정밀도·재현율·ROC‑AUC 등 다중 지표를 활용한다. 결과는 주요 벤더와 위험 키워드가 높은 CVSS 점수와 강하게 연관됨을 보여주며, 전통적 모델과 Transformer 기반 모델 모두 90% 이상 정확도를 달성했지만, 해석 가능성과 연산 효율성 측면에서 전통 모델이 유리함을 제시한다.
상세 분석
본 연구는 Zero Day Initiative(ZDI)에서 2024년 1월부터 4월까지 공개된 415건의 제로데이 취약점 데이터를 활용한다. 데이터는 CVE 식별자, CVSS v3.0 기본 점수, 공개 일자, 그리고 짧은 텍스트 설명으로 구성된다. 연구는 세 가지 핵심 질문(RQ1‑RQ3)을 설정하였다. RQ1에서는 벤더, CVE 할당 여부, 텍스트 내 키워드(예: “buffer overflow”, “remote code execution”) 등 12개의 구조·비구조 특징이 고위험(CVSS≥7.0)과 어떤 상관관계를 갖는지 탐색한다. 텍스트 특징은 TF‑IDF 벡터화 후 차원 축소 기법인 SVD와 PCA를 적용해 잡음 감소와 모델 학습 효율성을 검증하였다. 실험 결과, 널리 사용되는 벤더(예: Microsoft, Adobe)와 “remote code execution”, “privilege escalation” 같은 공격성 키워드가 높은 중요도 점수를 부여받았다. 차원 축소는 95% 이상의 분산을 유지하면서 피처 수를 300→50으로 감소시켰으며, 이는 Random Forest와 Logistic Regression의 F1‑score를 각각 0.81→0.86, 0.78→0.84로 향상시켰다.
RQ2에서는 전통적인 머신러닝 모델(로지스틱 회귀, 결정 트리, 랜덤 포레스트)과 딥러닝 모델(1‑D CNN, LSTM, BERT 기반 Transformer)을 비교하였다. 구조화된 메타데이터만을 이용한 전통 모델은 정확도 92% 수준을 기록했으며, 텍스트와 메타데이터를 결합한 하이브리드 모델은 94% 이상의 정확도와 0.91 이상의 macro‑F1을 달성했다. 특히 BERT‑tiny 모델은 학습 시간과 메모리 사용량이 적음에도 불구하고 0.89의 macro‑F1을 보여, 실무 적용 가능성을 시사한다. 그러나 딥러닝 모델은 데이터 양이 제한적일 경우 과적합 위험이 커서, 교차 검증과 dropout, early‑stopping을 적용했음에도 불구하고 일부 실험에서 성능 편차가 3% 내외로 나타났다.
RQ3는 클래스 불균형(고위험 18%, 중위험 42%, 저위험 40%)을 고려한 평가 지표의 중요성을 강조한다. 전체 정확도만을 기준으로 하면 92% 수준이지만, 고위험 클래스에 대한 재현율은 0.71에 머물렀다. ROC‑AUC(0.94)와 PR‑AUC(0.88)를 함께 제시함으로써 모델이 실제 운영 환경에서 중요한 고위험 취약점을 놓치지 않도록 평가 체계를 보완하였다.
한계점으로는 데이터가 ZDI에 제한돼 특정 산업군(예: 모바일, 클라우드) 편향이 존재하고, CVSS 점수 자체가 주관적 평가에 의존한다는 점을 들 수 있다. 향후 연구에서는 NVD 전체 데이터와 결합해 장기적인 트렌드 분석을 수행하고, 멀티모달 학습(코드 스니펫, 바이너리 정적 분석)으로 예측 정확도를 높이는 방안을 모색한다.
댓글 및 학술 토론
Loading comments...
의견 남기기