LLM 기반 제로샷 특징 선택으로 구현하는 고효율 악성코드 탐지
초록
본 논문은 대규모 악성코드 데이터셋(EMBOD)에서 특징 이름과 작업 설명만을 이용해 대형 언어 모델(GPT‑4, GPT‑5, Gemini‑2.5)로 제로샷 특징 선택을 수행한다. 전통적인 통계·모델 기반 방법들과 비교했을 때 정확도·F1·AUC 등에서 경쟁력을 유지하면서 해석성·안정성·라벨 의존도 감소라는 부가 가치를 제공한다는 점을 실험적으로 입증한다.
상세 분석
LLM‑FS는 기존 필터·래퍼·임베디드 방식이 갖는 “통계적 편향·라벨 의존·불안정성”을 보완하기 위해, 각 특징에 대한 전역·클래스별 통계(평균, 분산, IQR, 클래스별 평균 차이 등)를 구조화된 프롬프트에 삽입하고, LLM에게 “악성·정상 파일을 구분하는 데 해당 특징이 얼마나 중요한가?”라는 질문을 제시한다. LLM은 사전 학습된 방대한 보안·프로그래밍 지식을 활용해 0~1 사이의 중요도 점수를 반환한다.
실험 설계는 다음과 같다. (1) EMBER와 BODMAS를 통합한 EMBOD 데이터셋을 구축하여 200여 개의 정적·동적 특징을 확보하였다. (2) 전통적 FS 방법으로는 Variance Threshold, χ², ANOVA, Mutual Information, Correlation Threshold, Tree‑Based Importance, ExtraTrees, Sequential Feature Selection을 적용하였다. (3) LLM‑FS는 GPT‑5.0, GPT‑4.0, GPT‑4.0‑mini, Gemini‑2.5 네 모델에 동일 프롬프트를 전달해 각각 점수를 산출하고, 상위 k(=30, 50, 100)개 특징을 선택하였다. (4) 선택된 특징 집합을 Random Forest, ExtraTrees, MLP, KNN 네 분류기에 입력해 정확도, 정밀도, 재현율, F1, AUC, MCC, 실행 시간 등을 측정하였다.
주요 결과는 다음과 같다. LLM‑FS는 k=50일 때 대부분의 분류기에서 전통적 방법과 통계적으로 유의한 차이가 없으며, 특히 ExtraTrees와 Random Forest에서는 AUC 0.97 수준을 기록했다. 또한, 동일 데이터와 동일 하이퍼파라미터 조건에서 LLM‑FS는 실행 시간이 평균 1.2배 빠르게 수렴했으며, 여러 번 실행해도 선택된 특징 순위의 Jaccard 유사도가 0.85 이상으로 높은 안정성을 보였다. 해석 측면에서는 LLM이 반환한 자연어 설명(예: “API 호출 빈도 ‘CreateProcess’는 악성 코드에서 높은 빈도로 나타남”)을 통해 보안 전문가가 특징의 의미를 직관적으로 파악할 수 있었다.
한계점도 명시한다. LLM‑FS는 통계량을 사전 계산해야 하므로 데이터 전처리 비용이 존재하고, 프롬프트 설계가 모델마다 민감하게 작동한다는 점이다. 또한, GPT‑5.0과 같은 최신 모델은 API 비용이 높아 실용적인 배포에 제약이 있다. 향후 연구에서는 (1) 프롬프트 자동 최적화, (2) 다중 LLM 앙상블을 통한 불확실성 감소, (3) 실시간 스트리밍 악성코드 환경에 적용 가능한 경량화된 LLM 활용 방안을 제시한다.
전반적으로, LLM‑FS는 “라벨이 부족하거나 빠른 해석이 요구되는 보안 현장”에 적합한 새로운 특징 선택 패러다임을 제시하며, 기존 통계·모델 기반 방법과 상호 보완적으로 활용될 수 있음을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기