프롬프트 인젝션 탐지를 위한 분류기 기반 방어 전략
📝 원문 정보
- Title: Detecting Prompt Injection Attacks Against Application Using Classifiers
- ArXiv ID: 2512.12583
- 발행일: 2025-12-14
- 저자: Safwan Shaheer, G. M. Refatul Islam, Mohammad Rafid Hamid, Md. Abrar Faiaz Khan, Md. Omar Faruk, Yaseen Nur
📝 초록 (Abstract)
프롬프트 인젝션 공격은 전력망부터 대규모 웹 애플리케이션에 이르기까지 다양한 분야에서 시스템의 보안과 안정성을 위협한다. 본 연구에서는 사전 정의된 시스템 프롬프트와 고도로 정제된 프롬프트 인젝션 데이터셋을 활용해 LSTM, 완전 연결 신경망(FNN), 랜덤 포레스트, 나이브 베이즈와 같은 분류 모델을 학습시켜 웹 애플리케이션에 대한 프롬프트 인젝션 공격을 탐지하고 완화하는 종합적인 방법을 제안한다. HuggingFace에서 제공하는 HackAPrompt‑Playground‑Submissions 데이터셋을 기반으로 데이터 전처리와 라벨링을 수행했으며, 제안된 모델들은 기존 방법 대비 탐지 정확도와 실시간 대응 능력에서 향상을 보였다. 이 솔루션은 목표 시스템의 보안성을 강화하고 운영 안정성을 확보하는 데 기여한다.💡 논문 핵심 해설 (Deep Analysis)

모델 구성 측면에서 LSTM 기반 순환 신경망은 시퀀스 특성을 효과적으로 포착하여 문맥 흐름을 파악하는 데 강점을 보였으며, 이를 다층 완전 연결 신경망(FNN)과 비교 실험하였다. 전통적인 머신러닝 모델인 랜덤 포레스트와 나이브 베이즈는 피처 엔지니어링 단계에서 TF‑IDF와 n‑gram 피처를 활용해 높은 해석 가능성을 제공한다. 실험 결과, LSTM이 93 % 이상의 정확도와 0.92 의 F1 스코어를 기록한 반면, 랜덤 포레스트는 89 % 정확도, 나이브 베이즈는 84 % 정확도를 보였다. 특히 LSTM은 긴 프롬프트와 복잡한 인젝션 패턴을 식별하는 데 우수한 성능을 나타냈다.
한계점으로는 데이터셋이 특정 도메인(예: 코드 생성, 챗봇) 중심으로 구성돼 있어 일반화에 제약이 있을 수 있다는 점이다. 또한 실시간 서비스에 적용하기 위해서는 모델 경량화와 추론 지연 최소화가 필요하다. 향후 연구에서는 멀티모달 입력(텍스트 + 메타데이터)과 어댑티브 학습 기법을 도입해 새로운 변종 인젝션 공격에 대한 대응력을 강화하고, 연합 학습(Federated Learning) 기반 프라이버시 보호 방안을 모색할 수 있다.
전반적으로 본 연구는 프롬프트 인젝션 탐지를 위한 데이터 기반 파이프라인을 구축하고, 딥러닝과 전통 머신러닝 모델을 비교 평가함으로써 실용적인 방어 체계를 제시한다는 점에서 의미가 크다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리