LLM 기반 제로·소수 샷 피싱 URL 탐지 벤치마크
초록
본 논문은 최신 대형 언어 모델(GPT‑4o, Claude‑3.7‑sonnet, Grok‑3‑Beta)을 제로‑샷 및 소수‑샷 프롬프트 방식으로 평가하여, 균형 잡힌 피싱 URL 데이터셋에서의 탐지 성능을 비교한다. 실험 결과, 소수‑샷 프롬프트가 전반적인 정확도·정밀도·재현율을 향상시키며, 특히 Grok‑3‑Beta가 가장 높은 AUROC·AUPRC를 기록한다.
상세 분석
본 연구는 AI‑first 위협 환경에서 라벨링 비용이 급증하는 상황을 고려해, 사전 학습된 대형 언어 모델(LLM)을 최소한의 감독으로 피싱 URL을 판별하는 프레임워크를 제시한다. 데이터는 PhiUSIIL 피싱 URL 데이터셋을 기반으로 5,000개의 피싱 URL과 5,000개의 정상 URL을 무작위 추출해 균형 잡힌 10,000개 샘플을 구성했으며, 추가로 1 %·10 % 비율의 불균형 테스트셋을 두 개의 시드(S123, S456)로 각각 1,000개씩 만든다.
프롬프트 설계는 “You are a cybersecurity expert. Respond only with 0 for phishing or 1 for legitimate.”라는 지시문(I)와 URL 질의(Q)만을 결합한 제로‑샷(P_ZS)과, 여기에 6개의 예시(E)를 삽입한 소수‑샷(P_FS)으로 구성된다. 예시 수를 1, 3, 9개로 변형해 민감도 분석을 수행했으며, 모든 모델은 온도 0, 토큰 제한 10으로 API 호출해 일관된 추론 환경을 유지했다.
평가 지표는 정확도, 매크로 정밀도·재현율·F1, AUROC, AUPRC 등 6가지이며, scikit‑learn 구현을 사용해 매크로 평균을 적용해 클래스 불균형 영향을 최소화했다. 결과는 표 1과 혼동 행렬(Figure 2)에서 확인할 수 있다. 제로‑샷에서는 Grok‑3‑Beta가 0.8914의 정확도와 0.9735의 재현율을 보였지만 정밀도가 0.8361에 머물렀다. 소수‑샷으로 전환하면서 정밀도는 0.9492로 크게 상승했으나 재현율은 0.9307로 약간 감소해 전형적인 정밀도‑재현율 트레이드오프가 발생했다. Claude‑3.7‑sonnet은 소수‑샷에서 재현율 0.9526, 정밀도 0.9027을 기록해 균형 잡힌 성능을 보였으며, GPT‑4o는 전체적으로 일관된 향상을 보였지만 최고 성능은 다른 두 모델에 미치지 못했다.
AUROC·AUPRC 곡선(Figure 3‑5)에서도 소수‑샷이 전반적으로 곡선 상단을 차지해 임계값 변화에 대한 강인성을 입증한다. 특히 Grok‑3‑Beta는 AUPRC 0.9573으로 가장 높은 정밀도‑재현율 곡선을 형성했다.
한계점으로는 (1) 프롬프트가 영어 기반이며 한국어 URL에 대한 일반화 검증이 부족하고, (2) 실시간 탐지 시 비용(API 호출 지연·요금) 분석이 누락됐으며, (3) 모델별 토큰 사용량·응답 시간 비교가 없어 운영 효율성 평가가 제한적이다. 또한, 소수‑샷 예시가 무작위 선택됐기 때문에 예시 품질이 성능에 미치는 영향을 정량화하지 않았다. 향후 연구에서는 다국어 프롬프트, 예시 선택 전략(대표성 기반 샘플링), 그리고 온‑프레미스 LLM 배포를 통한 비용‑성능 트레이드오프 분석이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기