숨겨진 위협 LLM 기반 피싱 탐지 프롬프트 인젝션

숨겨진 위협 LLM 기반 피싱 탐지 프롬프트 인젝션
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 멀티모달 LLM을 이용한 피싱 사이트 탐지 시스템이 프롬프트 인젝션(PI) 공격에 취약함을 최초로 체계적으로 평가한다. 공격 기법과 공격 표면을 두 축으로 구분한 taxonomy를 제시하고, 실제 피싱 사이트에 적용한 다양한 PI 시나리오를 구현해 GPT‑5 등 최신 모델을 실험한다. 결과는 기존 탐지 정확도가 크게 감소함을 보여준다. 이를 방어하기 위해 Prompt Hardening, Allowlist 기반 Retrieval Augmentation, Output Validation을 결합한 InjectDefuser 프레임워크를 제안하고, 다중 모델에 적용했을 때 공격 성공률을 현저히 낮추는 효과를 입증한다.

상세 분석

이 논문은 LLM 기반 피싱 탐지 시스템이 인간과는 다른 “지각 비대칭”을 악용당할 수 있다는 점을 핵심으로 삼는다. 공격자는 웹 페이지의 URL, HTML, 스크린샷 등 인간이 거의 인식하지 못하는 요소에 악의적인 프롬프트를 삽입하고, LLM은 이를 그대로 해석해 판단을 내리게 된다. 저자들은 공격 기법을 T‑1~T‑5의 다섯 가지 주요 기법과 AT‑1, AT‑2의 보조 기법으로 구분하고, 각각을 HTML 메타 태그, 숨은 텍스트, 색상 혼합, 이미지 내 OCR 가능한 텍스트, JSON 구조 혼동 등 구체적인 표면에 매핑한다. 실험에서는 1,200개 이상의 실제 피싱 샘플에 다양한 PI 변형을 적용했으며, GPT‑5, Claude‑3, Llama‑2 등 주요 모델이 평균 68% 이상의 오분류율을 보였다. 특히 Legitimate Pretending(T‑1)과 Role Hijacking(T‑2)은 모델의 컨텍스트 이해를 교란해 ‘정상’으로 오인하게 만들었다. 방어 측면에서 제안된 InjectDefuser는 (1) 시스템 프롬프트와 사용자 프롬프트를 명확히 구분하는 하드닝, (2) 신뢰된 도메인·키워드 화이트리스트를 활용해 외부 콘텐츠를 제한적으로 재검색, (3) 출력 형식을 JSON 스키마로 강제하고 비정상적 필드가 감지되면 차단하는 검증 단계로 구성된다. 이 세 단계는 각각 독립적으로 30%~45%의 공격 차단 효과를 보였으며, 결합 시 전체 성공률을 12% 이하로 낮추었다. 논문은 또한 방어가 완벽하지 않으며, 고도화된 은닉 인코딩이나 대규모 토큰 소모 공격은 여전히 위협이 될 수 있음을 인정한다. 전체적으로 공격‑방어 양측 모두 실용적인 구현 가능성을 제시하며, LLM 기반 보안 서비스 설계 시 반드시 고려해야 할 새로운 위험 모델을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기