LLM 기반 웹쉘 탐지, 행동 중심 프레임워크로 한계 돌파
초록
본 논문은 대규모 언어 모델(LLM)을 웹쉘 탐지에 적용할 때 발생하는 정밀도·재현율 불균형과 컨텍스트 제한 문제를 짚고, 중요한 PHP 함수 기반의 행동 필터링과 가중치 기반 시연 선택을 결합한 BFAD 프레임워크를 제안한다. BFAD는 모든 평가된 LLM의 F1 점수를 평균 13.8% 향상시켰으며, GPT‑4와 LLaMA‑3.1‑70B는 기존 최첨단 탐지기보다 우수한 성능을 보였다.
상세 분석
이 연구는 웹쉘 탐지라는 특수 도메인에 LLM을 직접 적용했을 때 나타나는 두 가지 핵심 장애물을 명확히 규명한다. 첫째, 웹쉘 파일은 종종 수백 KB에 달하는 초대형 토큰 시퀀스를 포함하고 있어, 현재 대부분의 LLM이 지원하는 컨텍스트 윈도우(8K~32K 토큰)를 초과한다. 이 경우 중요한 악성 코드 조각이 잘려 나가 모델이 핵심 행동을 놓치게 된다. 둘째, 인‑컨텍스트 학습(ICL)에서 시연(demonstration) 선택이 성능에 큰 영향을 미치지만, 기존의 무작위 혹은 의미적 유사도 기반 선택 방식은 웹쉘의 은폐된 행동 패턴을 반영하지 못한다.
이에 저자들은 “Critical Function Filter”를 도입해 PHP의 위험 함수 6가지 카테고리(프로그램 실행, 코드 실행, 콜백, 네트워크 통신, 정보 수집, 난독화·암호화)를 사전 정의하고, 각 파일에서 이러한 함수 호출을 탐지한다. 웹쉘은 평균 22.76회의 위험 함수 호출을 보이는 반면, 정상 파일은 0.74회에 불과해, 함수 호출 자체가 강력한 행동 신호가 된다.
다음 단계인 “Context‑Aware Code Extraction”에서는 탐지된 위험 함수 주변을 일정 윈도우(τ)만큼 추출하고, 겹치는 구간을 병합해 토큰 수를 최소화한다. 컨텍스트 예산이 남을 경우, 남은 코드를 조각으로 추가 삽입해 전역적인 코드 흐름도 제공한다. 이렇게 하면 LLM이 반드시 필요한 핵심 행동 정보를 받으면서도 전체 파일을 압축해 입력 길이 제한을 회피한다.
시연 선택은 “Weighted Behavioral Function Profiling”(WBFP)으로 수행된다. 각 위험 함수 유형에 대해 커버리지 차이, 호출 빈도 비율, 사용 비율을 계산하고, 이를 가중치(α,β,γ)와 결합해 차별 점수를 산출한다. 이 점수는 함수별 가중치를 정규화한 뒤, 함수별 임베딩(E)와 코사인 유사도로 시연 후보와의 유사도를 재계산한다. 결과적으로, 악성 행동과 가장 유사한 시연이 우선 선택되어 ICL의 효율이 크게 상승한다.
실험에서는 26.59K PHP 스크립트(4.93K 웹쉘, 21.66K 정상)를 사용해 7개의 LLM(GPT‑4, LLaMA‑3.1‑70B, Qwen‑2.5‑Coder‑14B/3B, Qwen‑2.5‑3B/1.5B/0.5B)을 기존 시퀀스·그래프 기반 탐지기(GloVe+SVM, CodeBERT+RF, GAT)와 비교하였다. 주요 관찰은 다음과 같다. (1) 규모가 큰 LLM은 정밀도는 95% 이상으로 높지만 재현율이 85% 수준에 머물러, 악성 샘플을 놓치는 경향이 있다. 반대로 작은 모델은 재현율이 92%에 달하지만 정밀도가 38% 수준으로 낮아 오탐이 많다. (2) 오프‑더‑쉘프 프롬프트만으로는 기존 탐지기보다 F1이 낮았다(최고 96.39% vs. GAT 98.87%). (3) BFAD 적용 후 모든 모델의 F1이 평균 13.82% 상승했으며, GPT‑4와 LLaMA‑3.1‑70B는 98.9% 이상의 F1로 기존 최첨단을 능가했다. 특히 Qwen‑2.5‑Coder‑3B는 전통적 방법과 경쟁 수준에 도달했다.
한계점으로는 (i) 위험 함수 목록이 PHP 버전·프레임워크에 따라 변동 가능성, (ii) 현재는 정적 코드만을 대상으로 하며 동적 실행 흐름을 반영하지 못함, (iii) WBFP의 가중치가 데이터셋에 과적합될 위험이 있다. 저자들은 향후 대규모 합성 벤치마크 구축, 그래프 기반 행동 표현과 LLM의 멀티모달 결합, 그리고 자동 업데이트 루프를 갖춘 “fast‑slow” 탐지 파이프라인 설계를 제안한다.
전반적으로 이 논문은 LLM을 보안 코드 분석에 적용할 때 발생하는 실용적 제약을 체계적으로 분석하고, 행동 중심의 전처리·시연 선택 전략을 통해 기존 한계를 크게 완화한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기