웹 에이전트 적대적 레드팀팅을 위한 자동화 프레임워크 MUZZLE

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MUZZLE은 웹 에이전트가 웹 페이지에서 마주치는 비신뢰 콘텐츠에 삽입된 간접 프롬프트 인젝션을 자동으로 탐지·생성하는 시스템이다. 에이전트 실행 궤적을 분석해 고위험 UI 요소를 선정하고, 상황에 맞는 악성 명령을 단계적으로 생성·수정한다. 4개의 웹 애플리케이션과 10가지 공격 목표에 대해 37개의 새로운 공격을 발견했으며, 교차 애플리케이션 인젝션과 맞춤형 피싱 시나리오도 제시한다.

상세 분석

MUZZLE은 기존 간접 프롬프트 인젝션 연구가 갖는 “정적 템플릿·수동 표면 선택”이라는 한계를 극복하기 위해, 에이전트 중심의 동적 탐색을 핵심 설계 원칙으로 삼았다. 먼저, 에이전트가 수행하는 인식‑행동 루프에서 수집된 DOM 트리, 스크린샷, 메모리 스냅샷 등을 통합해 **실행 궤적(Trajectory)**을 구성한다. 이 궤적은 각 UI 요소가 에이전트의 의사결정에 미치는 영향력을 정량화하는 ‘salience’ 점수와, 현재 상태에서 해당 요소를 조작했을 때 발생 가능한 ‘exploitability’ 점수를 결합해 우선순위 매트릭스를 만든다.

다음 단계에서는 멀티‑에이전트 생성 모델이 이 매트릭스를 입력으로 받아, 목표 보안 속성(기밀성, 무결성, 가용성)에 맞는 컨텍스트‑aware 악성 프롬프트를 생성한다. 여기서 중요한 점은 프롬프트가 단순 문자열이 아니라, 다중 단계 시나리오(예: 로그인 후 댓글에 삽입 → 페이지 이동 → 데이터 탈취)로 설계된다는 것이다. MUZZLE은 생성된 프롬프트를 실제 에이전트에 삽입하고, 실행 결과를 피드백 루프로 수집한다. 실패하거나 부분 성공한 경우, 강화학습 기반의 어댑티브 리파인먼트 모듈이 실패 원인을 분석하고, 삽입 위치·프롬프트 내용·추가 조작을 재조정한다. 이 과정을 반복함으로써 탐색 공간이 기하급수적으로 커지는 문제를 목표‑지향적 탐색으로 억제한다.

시스템 구현 측면에서 MUZZLE은 The Zoo라는 경량 샌드박스 환경을 활용한다. The Zoo는 Docker 기반의 다중 애플리케이션 네트워크를 제공하며, 백엔드 상태를 완전하게 노출하고 재현성을 보장한다. 이를 통해 MUZZLE은 교차 애플리케이션 공격(예: 한 서비스에 삽입된 프롬프트가 다른 서비스의 인증 토큰을 탈취)까지 시뮬레이션한다.

실험 결과는 두드러진 의미를 가진다. 4개의 대표적 웹 앱(이커머스, 포럼, CMS, 이메일 클라이언트)과 3가지 LLM(Claude‑2, GPT‑4, Llama‑2) 조합에서 총 37개의 새로운 인덱트 프롬프트 인젝션을 발견했으며, 이 중 2건은 기존 연구에서 전혀 보고되지 않은 교차‑앱 시나리오다. 또한, 에이전트가 사용자 인터페이스를 자동으로 탐색하면서 피싱 페이지를 생성해 사용자를 속이는 맞춤형 공격도 성공했다.

핵심 기여는 다음과 같다. (1) 완전 자동화된 레드팀팅 파이프라인을 제시해 인간 개입을 최소화했다. (2) 에이전트 궤적 기반의 동적 표면 선정과 컨텍스트‑aware 프롬프트 생성을 결합해 기존 정적 방법보다 높은 탐지 효율을 달성했다. (3) 교차 애플리케이션 공격과 맞춤형 피싱 등 새로운 공격 클래스를 정의했다. (4) 샌드박스 환경에서 재현 가능한 평가 프레임워크를 제공해 향후 연구·산업 적용에 기반을 마련했다.

한계점으로는 현재 MUZZLE이 DOM‑중심 에이전트에 최적화돼 있어, 순수 이미지 기반(시각적) 에이전트에 대한 적용이 제한적이며, 프롬프트 생성 모델이 LLM 자체의 보안 방어(예: 시스템 프롬프트 필터링)를 회피하는 데 있어 아직 완전하지 않다. 또한, 공격 목표가 사전 정의된 10가지에 한정돼 있어, 보다 복합적인 목표(예: 장기적인 데이터 누수 시나리오) 탐색에는 추가 연구가 필요하다.

전반적으로 MUZZLE은 웹 에이전트 보안 평가에 새로운 패러다임을 제시하며, 자동화·동적·다중‑목표 접근법이 향후 LLM 기반 자동화 시스템의 레드팀팅 표준이 될 가능성을 보여준다.

웹 에이전트 적대적 레드팀팅을 위한 자동화 프레임워크 MUZZLE

초록

상세 분석

댓글 및 학술 토론

의견 남기기