동적 오픈엔드 벤치마크 AgentDyn: 실세계 에이전트 보안 평가를 위한 새로운 기준
초록
AgentDyn은 쇼핑, GitHub, 일상 생활 등 3개 도메인에 걸쳐 60개의 동적·오픈엔드 사용자 과제와 560개의 프롬프트 인젝션 테스트 케이스를 제공한다. 기존 벤치마크가 정적·단순 과제에 머물렀던 문제를 해결하고, 유용한 외부 지시와 복잡한 툴 사용을 포함해 실제 환경에서의 공격·방어 상황을 재현한다. 10가지 최신 방어 기법을 평가한 결과, 대부분이 보안성·유용성 모두에서 크게 부족함을 보였다.
상세 분석
본 논문은 현재 LLM 기반 에이전트 보안 벤치마크가 가지고 있는 세 가지 근본적인 한계를 명확히 짚어낸다. 첫째, 대부분의 과제가 사전에 완전한 플랜을 수립할 수 있는 정적 구조이며, 실제 서비스에서 요구되는 “동적 재계획” 상황을 반영하지 못한다. 둘째, 외부 데이터에 포함된 지시가 전부 악의적이라고 가정해 방어가 모든 외부 명령을 무시하도록 만들지만, 현실에서는 “로그인 먼저”, “배송 주소 확인” 등 유용한 지시가 다수 존재한다. 셋째, 과제 복잡도가 도구 수·단계 수·애플리케이션 연계 측면에서 지나치게 낮아, 장기적인 툴 체인과 다중 도메인 협업을 요구하는 실제 시나리오를 테스트하지 못한다.
AgentDyn은 이러한 문제점을 해결하기 위해 세 가지 설계 원칙을 적용한다. 1) 동적 플래닝: 모든 사용자 과제가 실행 중 환경 피드백(예: 웹 페이지 로드 결과, API 응답 등)에 따라 경로를 수정해야 하며, 이는 플래너가 초기 계획에 의존하지 못하게 만든다. 2) 유용한 지시 삽입: 각 과제의 핵심 경로에 최소 하나 이상의 정상적인 외부 지시를 배치해, 방어가 무조건적인 필터링을 할 경우 기능 손실이 발생하도록 만든다. 3) 복합 과제 설계: 평균 7.1단계, 3.17개의 애플리케이션, 33.33개의 도구를 활용하도록 설계해, 기존 벤치마크(AgentDojo 평균 3단계, 1.38 애플리케이션, 19.87 도구)와 비교해 현저히 높은 복잡성을 제공한다.
논문은 10가지 최신 방어 기법(프롬프트 샌드위치, 스포트라이트, Tool Filter, CaMeL, DRIFT, ProtectAI, PIGuard, PromptGuard2, Progent 등)을 GPT‑4o 기반 에이전트에 적용해 평가했다. 결과는 크게 두 축으로 나뉜다. 보안성 부족: Prompt Sandwich, Spotlight, PromptGuard2 등은 동적 플래닝 상황에서 공격 성공률(ASR)이 30% 이상으로 급증했다. 과도한 방어(오버디펜스): Tool Filter, CaMeL, DRIFT은 초기 플랜에 과도히 의존해 플래닝이 바뀔 때 유틸리티가 50% 이상 급감했다. 특히 필터링 기반 방어인 ProtectAI와 PIGuard는 유용한 지시와 악의적 지시를 구분하지 못해 유틸리티가 거의 0에 수렴했다. 툴 수가 늘어나면 정책 기반 방어인 Progent도 정확한 툴 접근 제어를 수행하지 못해 성능이 급락한다.
이러한 실험을 통해 저자들은 현재 방어 기술이 정적·단순 환경에 최적화돼 있으며, 동적·복합 환경에서는 보안·유용성 트레이드오프를 제대로 관리하지 못한다는 점을 강조한다. 또한, 벤치마크 자체가 방어 연구를 이끌어가는 “골드 스탠다드”가 되려면 실제 서비스에서 마주치는 다양한 공격 벡터와 정상 흐름을 동시에 포함해야 함을 역설한다.
마지막으로, AgentDyn은 오픈소스로 공개돼 연구자들이 자유롭게 확장·수정할 수 있도록 설계됐으며, 향후 공격 기법·방어 기법의 지속적인 업데이트와 커뮤니티 기반 평가를 목표로 한다. 이는 에이전트 보안 분야가 정적 평가에서 동적 실전 평가로 전환하는 중요한 전환점이 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기