소프트 인스트럭션 제어 방어

소프트 인스트럭션 제어 방어
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 도구‑증강 LLM 에이전트가 외부 데이터를 처리할 때 발생하는 프롬프트 인젝션을 방어하기 위해, 입력을 반복적으로 검사·재작성·마스킹하는 “Soft Instruction Control (SIC)” 루프를 제안한다. 다중 패스와 제어 문자열 삽입을 통해 악의적 명령을 제거하고, 남은 명령이 있으면 에이전트를 중단한다. 실험에서는 주요 모델에 대해 0 % 공격 성공률을 달성했으나, 최악의 상황에서는 15 % 수준의 성공률이 남는 한계가 있다.

상세 분석

SIC는 기존 탐지 기반 방어가 단일 분류기로 입력을 차단하는 취약점을 보완하고자, “소프트” 방식으로 명령을 식별·재작성하는 파이프라인을 설계했다. 핵심 아이디어는 (1) 외부 데이터에 가짜 명령(컨트롤 문자열)을 삽입해 재작성 과정이 정상적으로 수행되는지 확인하고, (2) 재작성 단계에서 마스크·리프레이즈·제거 중 하나를 선택해 명령성을 약화한다는 점이다. 이후 전체 텍스트와 청크 단위로 다시 탐지 모델을 호출해 남은 명령이 없는지를 검증한다. 모든 재작성은 이전 단계의 결과를 참조하지 않는 stateless 방식으로 수행돼, 공격자가 중간 결과를 조작해 방어 흐름을 바꾸는 것을 어렵게 만든다.

이 설계는 CaMeL 프레임워크의 데이터·제어 흐름 분리를 ‘소프트’하게 확장한 것으로, 명령성을 완전히 없애는 대신 “명령처럼 보이지 않게” 변환한다. 따라서 에이전트는 오직 사용자 의도만을 포함한 명령을 받게 되며, 내부 정책이나 모델 자체를 수정할 필요가 없다.

실험에서는 AgentDojo 벤치마크와 다양한 최신 모델(GPT‑4o, Kimi‑k2, Qwen3‑32B 등)을 사용해, 마스킹 한 번과 단일 재작성 패스로도 0 % ASR을 달성했다. 그러나 논문은 비명령형 워크플로우(예: 데이터만 전달하고 명령은 암시적으로 포함)에서는 15 % 정도의 성공률이 남을 수 있음을 인정한다. 이는 재작성·탐지 모델이 완벽히 명령을 식별하지 못하거나, 공격자가 은밀히 명령을 숨기는 경우 발생한다.

한계점으로는 (1) 재작성·탐지에 사용되는 LLM 자체가 공격에 취약할 수 있다는 점, (2) 다중 호출로 인한 연산 비용과 지연이 존재하지만 토큰 수에 선형적으로 증가하므로 실용적이라고 본다, (3) 강력한 화이트박스 공격자는 컨트롤 문자열을 회피하거나 재작성 과정을 교란시켜 방어를 무력화할 가능성이 있다. 또한, “명령이 아닌 형태”로 전달되는 공격(예: 데이터 흐름에 숨은 트리거)에는 현재 설계가 충분히 대응하지 못한다는 점이 논문에서 제시된 최악의 15 % ASR으로 드러난다.

전체적으로 SIC는 기존 방어보다 구현이 간단하고 모듈화가 뛰어나며, 실제 시스템에 적용하기 쉬운 장점을 갖는다. 하지만 완전한 보안을 제공하지는 못하고, 특히 비명령형 인젝션이나 LLM 기반 재작성·탐지 자체를 목표로 하는 적응형 공격에 대해서는 추가적인 방어 계층이 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기