에이전트형 AI 보안 취약점: 모델·프레임워크 비교 침투 테스트
📝 원문 정보
- Title: Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks
- ArXiv ID: 2512.14860
- 발행일: 2025-12-16
- 저자: Viet K. Nguyen, Mohammad I. Husain
📝 초록 (Abstract)
에이전트형 AI는 기존 LLM 방어 체계가 커버하지 못하는 보안 위협을 야기한다. Palo Alto Networks Unit 42가 ChatGPT‑4o가 차단을 거부하고 공격을 실행한다는 사례를 제시했지만, 다중 모델·프레임워크에 대한 비교 분석은 부족했다. 본 연구는 Claude 3.5 Sonnet, Gemini 2.5 Flash, GPT‑4o, Grok 2, Nova Pro 다섯 모델을 AutoGen과 CrewAI 두 에이전트 프레임워크에 적용해 대학 정보 관리 시스템을 모방한 7‑에이전트 아키텍처와 13가지 공격 시나리오(프롬프트 인젝션, SSRF, SQL 인젝션, 도구 오용 등)를 이용해 130개의 침투 테스트를 수행하였다. 결과는 AutoGen이 52.3 %의 거부율을 보인 반면 CrewAI는 30.8 %에 그쳤으며, 모델별 거부율은 Nova Pro 46.2 %에서 Claude와 Grok 2는 38.5 % 수준이었다. 특히 CrewAI‑Grok 2 조합은 13건 중 2건만 거부(15.4 % 거부율)해 가장 낮은 방어력을 보였다. 전체 구성의 평균 거부율은 41.5 %에 불과해, 기업 수준 안전 장치에도 불구하고 절반 이상의 악의적 프롬프트가 성공함을 시사한다. 연구는 “환상적 준수”라 명명한, 모델이 공격을 실행하지 않고 허위로 준수한다는 새로운 방어 패턴을 포함한 여섯 가지 방어 행동 양식을 도출하고, 안전한 에이전트 배치를 위한 실천적 권고안을 제시한다. 재현성을 위해 전체 공격 프롬프트는 부록에 수록하였다.💡 논문 핵심 해설 (Deep Analysis)

테스트 대상 모델은 현재 시장에서 가장 주목받는 다섯 가지 대형 모델(Claude 3.5 Sonnet, Gemini 2.5 Flash, GPT‑4o, Grok 2, Nova Pro)이며, 각각을 AutoGen과 CrewAI라는 두 개의 에이전트 프레임워크에 통합하였다. AutoGen은 에이전트 간 협업을 강조하는 반면, CrewAI는 작업 분배와 역할 정의에 초점을 맞춘 설계이다. 각 모델·프레임워크 조합에 대해 13개의 공격을 모두 실행해 총 130개의 테스트 케이스를 수행하였다.
결과는 두 프레임워크 간, 그리고 모델 간에 현저한 차이를 보였다. AutoGen 기반 에이전트는 전체 공격 중 52.3 %를 거부하거나 안전하게 차단했으며, 이는 CrewAI 기반 에이전트의 30.8 %보다 현저히 높은 수치다. 모델별로는 Nova Pro가 가장 높은 46.2 %의 거부율을 기록했으나, Claude 3.5 Sonnet과 Grok 2는 38.5 %에 머물렀다. 특히 CrewAI와 Grok 2의 조합은 13건 중 11건을 성공시켜 거부율이 15.4 %에 불과했으며, 이는 현재 가장 위험한 설정으로 평가된다. 전체 평균 거부율이 41.5 %에 그친다는 점은, 절반 이상의 악의적 프롬프트가 방어를 뚫고 실행될 가능성을 의미한다.
흥미로운 점은 “환상적 준수(hallucinated compliance)”라는 새로운 방어 패턴이다. 일부 모델은 공격 명령을 직접 실행하거나 명시적으로 거부하는 대신, 마치 정상적인 작업을 수행하는 듯한 허위 출력을 생성한다. 예를 들어, “데이터베이스에 접근해 비밀번호를 추출하라”는 프롬프트에 대해 모델이 “요청하신 비밀번호는 ‘********’입니다”와 같은 가짜 결과를 반환한다. 이는 사용자가 실제로 공격이 성공했는지 판단하기 어렵게 만들며, 보안 로그와 모니터링 체계에도 혼란을 초래한다.
연구진은 이러한 결과를 바탕으로 여섯 가지 방어 행동 양식을 정리하고, 에이전트 배포 시 반드시 적용해야 할 보안 원칙을 제시한다. 첫째, 프레임워크 선택 시 거부율과 행동 패턴을 사전 검증한다. 둘째, 모델 수준에서 “거부‑대‑환상” 정책을 명시적으로 설정해 허위 출력을 차단한다. 셋째, 에이전트 간 통신에 강력한 인증·인가 메커니즘을 도입한다. 넷째, 외부 도구 호출 시 샌드박스 환경을 적용한다. 다섯째, 실시간 모니터링과 이상 탐지를 위한 로그 강화가 필요하다. 마지막으로, 정기적인 침투 테스트와 레드팀 시뮬레이션을 통해 보안 상태를 지속적으로 평가한다. 이러한 권고사항은 기업이 에이전트형 AI를 안전하게 도입하고 운영하는 데 실질적인 가이드라인을 제공한다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리