자동 레드팀 설계: AgenticRed로 공격 시스템 최적화
초록
**
AgenticRed는 LLM의 인‑컨텍스트 학습을 활용해 인간 개입 없이 레드팀 에이전트 워크플로우를 자동으로 설계·진화시키는 파이프라인이다. 진화적 선택을 적용해 생성된 시스템을 반복 평가·선택함으로써, Llama‑2‑7B·Llama‑3‑8B 등 오픈 모델에서 96‑98%의 공격 성공률(ASR)을 달성하고, GPT‑3.5‑Turbo·GPT‑4o 등 상용 모델에서도 100%에 가까운 성과를 보인다.
**
상세 분석
**
본 논문은 레드팀 자동화의 핵심 과제가 “어떤 공격 정책을 미리 정의된 틀 안에서 최적화하느냐”가 아니라 “공격 시스템 자체를 설계·진화시키는가”라는 관점을 제시한다. 이를 위해 저자들은 기존 메타‑에이전트 서치(Meta Agent Search)의 아이디어를 확장해, 에이전트 워크플로우를 코드 형태로 표현하고, LLM을 메타‑에이전트로 활용해 새로운 워크플로우를 자동 생성한다. 핵심 혁신은 두 가지이다. 첫째, 레드팀 도메인에 특화된 “아카이브”를 구축해 기존 최고 성능 에이전트와 그 성능 지표를 초기 집합으로 제공한다. 둘째, 다윈식 ‘생존자 선택’ 원칙을 적용해 매 세대마다 M개의 오프스프링을 생성하고, 사전 정의된 평가 데이터셋(악의적 의도 데이터셋)과 판정 함수(Judge)를 통해 ASR을 측정한다. 가장 높은 ASR을 기록한 시스템만을 아카이브에 보존하고, 다음 세대 메타‑에이전트는 이 정보를 기반으로 더 복잡하고 효율적인 워크플로우를 설계한다.
기술적 세부사항을 살펴보면, 에이전트 워크플로우는 (1) 역할 할당·도구 호출·메모리 관리, (2) 전략 라이브러리와 피드백 루프, (3) 공격 프롬프트 생성·검증 단계 등으로 구성된다. 메타‑에이전트는 “Dynamic Roleplaying”, “Interactive Feedback Loop”, “Monte Carlo Tree Search” 등 다양한 설계 패턴을 조합해 새로운 변형을 만든다. 각 변형은 자동화된 실행 인터페이스를 통해 목표 LLM에 프롬프트를 전달하고, 반환된 응답을 판정 모델에 입력해 성공 여부(0/1)를 얻는다. 이때 판정 모델은 HarmBench 기반의 다중 기준(위험도, 내용 적합성 등)을 사용해 정밀하게 라벨링한다.
실험 결과는 두드러진데, 오픈‑소스 Llama‑2‑7B에 대해 36% 상승한 96% ASR, Llama‑3‑8B에선 98%까지 도달했다. 특히 GPT‑4o와 GPT‑3.5‑Turbo 같은 최신 상용 모델에선 100%에 근접한 성공률을 기록했으며, Claude‑Sonnet‑3.5에서는 60%로 기존 대비 24% 개선되었다. 이러한 전이 성능은 설계된 워크플로우가 모델 아키텍처나 파인튜닝 정도에 크게 의존하지 않음을 시사한다. 또한, 저자들은 발견된 워크플로우의 질적 분석을 통해 “동적 역할 전환”과 “피드백 기반 프롬프트 재구성”이 공격 효율을 크게 높인다는 점을 확인했다.
한계점으로는 (1) 평가에 사용된 악의적 의도 데이터셋이 제한적일 수 있어 실제 악성 시나리오와의 격차, (2) 메타‑에이전트 자체가 대형 LLM에 의존하므로 계산 비용이 높고, (3) 판정 함수의 정확도에 따라 진화 방향이 왜곡될 가능성이 있다. 향후 연구에서는 더 다양한 도메인(예: 이미지·음성 모델)으로 확장하고, 멀티‑모달 피드백 및 인간‑인증 판정기를 결합해 안전성을 강화할 필요가 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기