LLM 기반 피싱 이메일 탐지와 다중 공격 벡터 평가

LLM 기반 피싱 이메일 탐지와 다중 공격 벡터 평가
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM‑PEA라는 프레임워크를 제안하여 GPT‑4o, Claude Sonnet 4, Grok‑3 등 최신 대형 언어 모델을 다양한 피싱 공격(프롬프트 인젝션, 텍스트 재구성, 다국어 변조)에 대해 평가한다. 균형·불균형·대립·프롬프트 인젝션·다국어 데이터셋을 구축하고, 구조화, 제로샷, CoT 프롬프트를 비교한다. 기본 정확도는 90 % 이상이지만, 프롬프트 인젝션과 다국어 환경에서 성능 저하가 관찰된다.

상세 분석

LLM‑PEA는 이메일 수집‑공격 생성‑LLM 판별의 3단계 파이프라인으로 설계되었다. 공격 생성 단계에서는 재구성, 명령 삽입, 컨텍스트 왜곡, 권위 위장, 논리 모순, 기술적 변조, 다국어 변환 등 7가지 전략을 적용해 1,134개의 프롬프트 인젝션 샘플과 189개의 의미 보존 적대 샘플을 만든다. 평가에서는 구조화 프롬프트(5가지 판단 기준 명시), 제로샷 프롬프트(최소 지시), CoT 프롬프트(단계별 사고) 세 가지를 사용하였다.

실험 결과, 균형 데이터셋에서 GPT‑4o는 95 % 정확도, Claude Sonnet 4는 94 %, Grok‑3는 88 %를 기록했다. 그러나 구조화 프롬프트는 모델의 유연성을 제한해 F1가 0.657에 머물렀으며, 제로샷은 0.793, CoT는 개별 모델에서 최고 0.865까지 상승했다. 불균형(90 % 정상, 10 % 피싱) 상황에서는 제로샷이 가장 높은 F1(0.864)를 보였다.

적대적 변환 후 성공률은 GPT‑4o 4.2 %, Claude Sonnet 4 12.7 %, Grok‑3 0 %로, Claude 모델이 가장 취약했다. 프롬프트 인젝션 실험에서는 1,134건 중 다수 모델이 오버라이드 명령에 의해 오분류되었으며, 특히 구조화 프롬프트가 가장 큰 영향을 받았다. 다국어 데이터셋(방글라, 중국어, 힌디어)에서는 피싱 비율이 5 %에 불과했음에도 전체 정확도가 현저히 떨어졌으며, 언어별 성능 차이가 크게 나타났다.

이러한 결과는 LLM이 높은 기본 탐지 능력을 갖추고 있더라도, 프롬프트 설계와 다중 공격 상황에서 취약점이 드러난다는 점을 강조한다. 특히 구조화된 지시가 오히려 공격 표면을 확대하고, 제로샷·CoT와 같은 유연한 프롬프트가 견고성을 높인다. 다국어 환경에서는 사전 학습 데이터의 편향과 언어별 토큰화 차이가 성능 저하의 주요 원인으로 보인다.

논문은 LLM 기반 보안 시스템에 대한 ‘하드닝’ 필요성을 제시한다. 구체적으로는 (1) 프롬프트 검증 및 정규화, (2) 다중 공격 시나리오를 포함한 지속적 레드팀 테스트, (3) 언어별 파인튜닝 및 어휘 보강, (4) 모델 내부의 안전 메커니즘(예: 토큰 레벨 필터링) 도입을 권고한다.


댓글 및 학술 토론

Loading comments...

의견 남기기