다이나믹 레드팀: 멀티환경 LLM 에이전트 보안 평가 프레임워크
초록
DREAM은 LLM 기반 에이전트가 여러 도구와 환경을 연계해 동작할 때 발생하는 장기·다단계 공격을 자동으로 생성·평가한다. 교차환경 적대 지식 그래프(CE‑AKG)와 상황‑인식 정책 탐색(C‑GPS)을 활용해 1,986개의 원자 행동을 조합, 12개 최신 모델을 테스트했으며 68 % 이상의 공격이 방어를 회피함을 보여준다. 결과는 “맥락 취약성”과 장기 의도 추적 실패가 현재 안전 메커니즘의 핵심 약점임을 시사한다.
상세 분석
본 논문은 LLM 에이전트가 도구 호출과 외부 시스템 연동을 통해 수행하는 복합 작업이 기존 정적 벤치마크로는 포착되지 않는 새로운 위협 표면을 만든다는 점을 명확히 제시한다. 핵심 기여는 세 가지로 요약할 수 있다. 첫째, 교차환경 적대 지식 그래프(CE‑AKG)를 도입해 서로 다른 디지털 환경(E₁…E_k)에서 얻은 관찰을 하나의 베일리프 상태(b_t)로 통합한다. 이 그래프는 각 환경에서 획득한 자격증명, 파일 경로, API 토큰 등을 노드와 엣지 형태로 저장하고, 새로운 행동이 실행될 때마다 τ(b_t, a_t, o_{t+1}) 함수를 통해 업데이트된다. 둘째, 공격자를 부분관측 마코프 결정 과정(PO‑MDP)으로 모델링하고, 목표는 누적 보상 R(b_t, a_t)을 최대화하는 최적 정책 π*를 찾는 것으로 정의한다. 여기서 보상은 공격 단계마다 시스템 침해 정도를 정량화하며, 할인 계수 γ는 장기 목표와 단기 이득 사이의 균형을 조절한다. 셋째, C‑GPS(컨텍스추얼 가이드드 폴리시 서치) 알고리즘은 휴리스틱 트리 탐색과 백트래킹을 결합해 원자 행동을 동적으로 연결한다. C‑GPS는 초기 단계에서 정보 획득(I(a_t;O_t))을 우선시해 베일리프 엔트로피 H(b_t)를 감소시키고, 일정 수준(K_accum·ω > Ω) 이상이 되면 “천둥 같은 타격” 단계로 전이해 공격 성공 확률이 급격히 상승하도록 설계되었다. 이론적 분석에서는 정적 공격이 요구하는 정보량 I(G) 전체를 한 번에 전달해 탐지 임계값 θ_safe를 초과하는 반면, DREAM은 정보를 여러 단계에 걸쳐 분산시켜 각 단계의 의도 밀도 ρ_t를 낮게 유지함으로써 방어 필터를 회피한다는 점을 수식(4)–(7)으로 증명한다. 실험에서는 12개의 최신 LLM 에이전트(예: GPT‑4‑Turbo, Claude‑2, Gemini‑1.5 등)를 대상으로 5단계·5환경 체인 공격을 수행했으며, 평균 성공률이 68 %에 달했다. 특히 “맥락 취약성”이라 명명한 현상은 동일한 안전 규칙이 환경 A에서는 유효하지만, 환경 B에서 동일한 규칙이 적용되지 않아 공격이 성공하는 경우를 의미한다. 또한, 초기 방어 프롬프트(예: “You are a helpful assistant”)가 다단계 시나리오에서는 효과가 거의 없으며, 공격자는 초기 단계에서 얻은 메타 정보를 이용해 프롬프트를 우회한다. 논문은 이러한 결과를 바탕으로 현재 안전 메커니즘이 정적·단일턴 가정에 과도하게 의존하고 있음을 비판하고, 베일리프 상태를 지속적으로 모니터링하고 교차환경 의존성을 검증하는 방어 체계가 필요함을 제안한다. 한계점으로는 CE‑AKG 구축에 필요한 환경 메타데이터 수집 비용, 원자 행동 라이브러리의 포괄성, 그리고 실제 운영 환경에서의 실시간 적용 가능성 등이 언급된다. 향후 연구는 자동화된 지식 그래프 업데이트, 인간‑인증 협업형 레드팀, 그리고 방어 측면에서 베일리프 엔트로피 상승을 유도하는 “불확실성 주입” 전략 등을 탐색할 예정이다.
댓글 및 학술 토론
Loading comments...
의견 남기기