LLM 프롬프트 주입 방어 체계와 NIST 분류 확장
초록
본 논문은 88개의 연구를 체계적으로 검토하여 프롬프트 주입 및 탈옥 공격에 대한 방어 기법을 정리하고, NIST가 제시한 기존 AML 분류에 새로운 방어 카테고리를 추가한다. 각 방어 방법의 효과성, 오픈소스 여부, 모델 독립성 등을 표로 정리하고, 실무 적용을 위한 가이드라인을 제시한다.
상세 분석
이 연구는 최근 급격히 확산되고 있는 생성형 AI와 대형 언어 모델(LLM)의 보안 위협, 특히 프롬프트 주입(Prompt Injection)과 탈옥(Jailbreaking) 공격에 초점을 맞춘다. NIST의 ‘AI 100‑2 E2025’ 보고서가 제시한 공격·방어 분류 체계를 출발점으로 삼아, 2025년 3월 발표된 NIST AML Taxonomy을 상세히 재해석하고, 실제 학술·산업 현장에서 보고된 88개의 방어 논문을 체계적으로 수집·선별하였다.
첫 번째 핵심 기여는 NIST 분류가 포괄하지 못한 방어 기법들을 식별했다는 점이다. 기존 NIST 카테고리는 ‘훈련 시 개입(Training‑time)’, ‘평가 시 개입(Evaluation‑time)’, ‘배포 시 개입(Deployment‑time)’ 등으로 구분했지만, 본 논문은 ‘간접 완화(Indirect mitigations)’와 같은 새로운 차원을 도입한다. 특히 ‘입력/출력 필터링’, ‘프롬프트 포맷팅’, ‘프롬프트 스틸링 방지’, ‘출력 집계(Ensemble)’, ‘모니터링·응답’, ‘사용 제한(Usage restrictions)’ 등 실무에서 바로 적용 가능한 세부 기술을 추가하였다.
두 번째로, 각 방어 기법의 정량적 효과를 동일한 벤치마크(예: AdvBench, OpenAI ChatGPT, Meta LLaMA 등)와 공격 데이터셋(예: GCG, ROT13, 토큰 스머글링 등)에서 비교하였다. 논문은 효과성 지표를 ‘성공 방어 비율’, ‘오버헤드(시간·자원)’, ‘정밀도·재현율’ 등으로 구분하고, 모델‑특정 방어와 모델‑불가지론 방어를 명확히 구분한다. 결과적으로, 사전 훈련 단계에서 안전 정렬(Safety alignment)이나 데이터 정제(Data sanitization)와 같은 사전 방어가 가장 높은 방어 성공률을 보였으며, 반면 입력/출력 필터링은 오버헤드가 낮지만 우회 공격에 취약한 경향을 보였다.
세 번째 기여는 오픈소스 여부와 모델 독립성을 메타데이터로 제공함으로써, 개발자가 실제 시스템에 적용할 때 선택지를 명확히 할 수 있게 한 점이다. 예를 들어, ‘Self‑Reflection’ 기법은 대부분의 Transformer 기반 모델에 적용 가능하고, GitHub에 공개된 구현체가 존재한다는 점이 강조된다.
마지막으로, 논문은 방어 연구의 재현성 문제를 지적한다. 현재 대부분의 연구가 서로 다른 평가 프로토콜과 데이터셋을 사용하고 있어, 직접적인 성능 비교가 어렵다. 이를 해결하기 위해 저자들은 표준화된 벤치마크와 보고 양식을 제안하고, 방어 기법을 설계·평가할 때 ‘공정 비교(Fair comparison)’ 원칙을 따를 것을 권고한다.
전반적으로 이 논문은 프롬프트 주입 방어 분야에서 최초로 NIST 분류를 확장하고, 방어 기법을 체계적으로 카탈로그화함으로써 연구자와 실무자 모두에게 실질적인 로드맵을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기