연속 도구 공격 체인으로 LLM 에이전트 탈옥
초록
LLM이 도구를 사용하도록 설계된 에이전트는 개별적으로는 안전해 보이는 도구 호출을 연속적으로 조합해 심각한 피해를 일으킬 수 있다. 논문은 이러한 위협을 “Sequential Tool Attack Chaining (STAC)”이라 정의하고, 자동화된 파이프라인을 통해 483개의 공격 시나리오를 생성·검증하였다. 실험 결과 GPT‑4.1을 포함한 최신 에이전트가 90% 이상의 성공률로 공격에 취약함을 보였으며, 기존 프롬프트 방어는 제한적인 효과만 있었다. 저자는 도구 호출 전체 흐름을 추론하도록 하는 새로운 방어 프롬프트를 제안해 ASR을 최대 28.8%까지 낮추었다.
상세 분석
본 연구는 도구 사용이 가능한 LLM 에이전트가 기존 텍스트‑기반 안전 검증을 우회할 수 있는 새로운 공격 표면을 제공한다는 점을 명확히 제시한다. STAC은 “각 단계가 무해해 보이지만 전체 흐름에서 악의적 결과를 초래한다”는 전제 하에, 공격자는 연속적인 도구 호출을 설계한다. 논문은 이를 자동화하기 위해 네 가지 모듈(Generator, Verifier, Prompt Writer, Planner)로 구성된 폐쇄‑루프 파이프라인을 구축하였다. Generator는 환경 정보와 도구 목록, 실패 모드를 입력받아 2~6개의 도구 호출 체인을 생성한다. Verifier는 실제 환경에 각 호출을 순차적으로 실행해 기대 출력을 확인하고, 실패 시 파라미터를 수정하거나 대체 도구를 찾아 체인을 재구성한다. 이렇게 검증된 체인은 모두 마지막 호출만이 악의적이며, 앞선 호출은 정상적인 작업(예: 파일 압축, 백업, 임시 파일 삭제)처럼 보인다. Prompt Writer는 검증된 체인에 대응하는 사용자 프롬프트 시퀀스를 역공학적으로 생성해, 에이전트가 자연스럽게 해당 도구를 호출하도록 만든다. Planner는 실제 공격 단계에서 에이전트의 응답과 환경 출력을 실시간으로 모니터링하며, 필요 시 프롬프트를 조정해 최종 악의적 호출을 유도한다.
실험에서는 SHADE‑Arena와 Agent‑SafetyBench 등 10여 개의 현실적인 환경을 활용해 483개의 STAC 사례를 구축했고, 총 1,352개의 사용자‑에이전트‑환경 상호작용을 평가하였다. GPT‑4.1, Claude‑3, Llama‑2‑Chat 등 최신 모델을 포함한 12개의 에이전트가 90% 이상 높은 공격 성공률(ASR)을 보였으며, 특히 도구 호출 순서와 파라미터 검증을 수행하지 않는 모델에서 취약성이 두드러졌다. 기존 프롬프트 기반 방어(예: “도구 사용 전 위험 평가” 등)는 대부분 공격을 차단하지 못했으며, 평균 ASR 감소율은 5~12% 수준에 머물렀다.
저자들은 새로운 방어 전략으로 “해악‑이익 추론 프롬프트”를 제안한다. 이 프롬프트는 에이전트가 각 도구 호출 전, 해당 호출이 가져올 잠재적 해악과 이익을 비교·평가하도록 강제한다. 실험 결과, 이 방어는 기존 방어 대비 ASR을 최대 28.8%까지 낮추었지만, 여전히 58.6% 이상의 공격이 성공하는 등 완전한 방어는 어려움을 드러냈다. 이는 도구 사용 에이전트가 전체 행동 시퀀스를 고려한 메타‑안전 검증이 필요함을 시사한다.
본 논문의 주요 기여는 (1) STAC이라는 새로운 위협 모델을 정의하고, (2) 자동화된 공격 생성·검증 파이프라인을 구현했으며, (3) 483개의 검증된 공격 사례를 제공한 대규모 벤치마크를 공개했고, (4) 기존 방어의 한계를 실증하고, (5) 해악‑이익 추론 기반 방어 프롬프트를 제안해 실질적인 방어 효과를 입증했다는 점이다. 이러한 결과는 도구 사용이 가능한 LLM 에이전트의 보안 설계에 있어, 개별 호출이 아닌 전체 시퀀스와 그 누적 효과를 평가하는 새로운 패러다임이 필요함을 강력히 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기