개인화 AI 에이전트 보안 혁명: OpenClaw 공격 체계와 PASB 벤치마크
초록
본 논문은 개인화된 LLM 기반 에이전트(OpenClaw)의 실제 배포 환경에서 발생할 수 있는 보안 위협을 체계적으로 평가하기 위해 PASB(Personalized Agent Security Bench)라는 새로운 벤치마크 프레임워크를 제안한다. PASB는 개인화 시나리오, 장기 메모리, 고권한 툴 체인을 포함한 현실적인 설정을 기반으로 블랙박스 엔드‑투‑엔드 공격을 자동화한다. OpenClaw에 적용한 실험 결과, 프롬프트 처리, 툴 호출, 메모리 검색 단계에서 각각 심각한 취약점이 발견되었으며, 공격이 장기 상호작용을 통해 지속·전파될 수 있음을 보여준다.
상세 분석
PASB는 기존 Agent Security Bench(ASB)와 달리 “개인화”라는 특성을 세 가지 축으로 구체화한다. 첫째, 사용자별 장기 대화 기록·파일·연락처 등 민감한 프라이빗 자산을 시뮬레이션하고, 캔리(허니) 토큰을 삽입해 정보 유출 여부를 정량화한다. 둘째, 실제 서비스와 유사한 툴 체인(메일 전송, 파일 접근, 결제 등)을 자체 호스팅 웹 테스트베드와 가상 툴 서버로 구현함으로써 외부 콘텐츠 조작·툴 응답 변조 공격을 현실적으로 재현한다. 셋째, 블랙박스 환경에서 자동화된 테스트 하네스를 구축해 사용자 입력, 에이전트 응답, 툴 호출·리턴을 모두 기록하고, “Leak”, “Act”, “Persist” 세 가지 성공 기준을 정의한다.
공격 모델은 Γ = ⟨C, I, B, G, P⟩ 형태로 formalize되며, C는 시나리오·초기 메모리·툴 집합, I는 공격자가 조작 가능한 입력 채널(사용자 프롬프트, 외부 웹 콘텐츠, 툴 응답), B는 상호작용 예산(최대 턴 수), G는 목표(정보 유출, 위험 툴 사용, 지속적 악성 영향), P는 성공 판정 함수이다. 성공 판정은 관찰 가능한 실행 트레이스 tr(τ)에서 프라이빗 자산이 노출되었는지(P_leak), 정책 위반 툴 호출이 있었는지(P_act), 공격 입력이 중단된 이후에도 해가 지속되는지(P_persist)를 검사한다.
OpenClaw에 대한 실험은 네 가지 주요 단계—프롬프트 처리, 외부 콘텐츠 접근, 툴 호출, 메모리 검색—를 각각 공격 대상으로 설정한다. 예를 들어, 프롬프트 인젝션을 통해 캔리 토큰을 포함한 명령을 삽입하면 에이전트가 이를 메모리에 저장하고 이후 세션에서 무심코 노출한다. 툴 오용 공격에서는 가짜 웹 페이지를 제공해 에이전트가 악성 파일을 다운로드하거나 금전 이체 API를 호출하도록 유도한다. 메모리 포이즈닝은 이전에 삽입된 악성 정보를 검색 단계에서 재활용하게 만들어 장기적인 영향력을 확보한다.
실험 결과는 ASR(Attack Success Rate) 기준으로 각 단계별 취약점이 30%~70% 수준으로 나타났으며, 특히 툴 호출 단계에서 “Act”와 “Persist”가 동시에 발생하는 복합 공격이 가장 높은 위험도를 보였다. 이는 단순 프롬프트 수준의 방어만으로는 충분하지 않으며, 툴 인터페이스와 메모리 관리 전반에 걸친 다층 방어 체계가 필요함을 시사한다. 또한, 블랙박스 설정에서도 공격 성공률이 높은 점은 실제 서비스 운영자가 보안 인식만으로는 방어가 어려운 현실을 반영한다.
논문의 기여는 (1) 개인화 에이전트 특화 보안 벤치마크 PASB의 설계·구현, (2) OpenClaw에 대한 포괄적 실증 연구, (3) 재현 가능한 평가 파이프라인과 공개 코드 제공이다. 향후 연구는 PASB를 다른 LLM 에이전트에 확장하고, 자동화된 방어 메커니즘(예: 툴 호출 검증, 메모리 무결성 체크)과 연계하는 방향으로 진행될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기