기억 기반 흐름 조작: LLM 에이전트의 메모리 제어 공격
본 논문은 LLM 에이전트가 툴을 선택·실행하는 과정에서 메모리 조회가 제어 흐름을 장악할 수 있음을 밝힌다. 공격자는 정상적인 대화 중 메모리에 악의적 규칙을 저장하고, 이후 작업에서 해당 메모리가 재활용될 때 툴 호출 순서를 왜곡하거나 금지된 툴을 강제한다. 저자들은 MEMFLOW라는 자동 평가 프레임워크를 구축해 90% 이상의 시나리오에서 공격 성공률을 확인했으며, 기존 안전 방어(역할 기반 메모리 분리)에도 85% 이상의 위반이 남는다는…
저자: Zhenlin Xu, Xiaogang Zhu, Yu Yao
**1. 연구 배경 및 동기**
LLM 기반 에이전트는 외부 툴(검색, 매핑, 데이터베이스 등)을 연계해 복합 작업을 수행한다. 기존 보안 연구는 툴 호출 순서를 조작하거나 프롬프트 주입을 통해 단일 세션 내에서 에이전트를 오도하는 방법에 집중했으며, 메모리(장기 컨텍스트)의 지속적 영향을 간과했다. 실제 서비스에서는 사용자 프로필, 선호도, 과거 대화 기록 등이 메모리에 저장돼 여러 작업에 재활용되며, 이는 에이전트의 툴 선택에 직접적인 영향을 미친다.
**2. 메모리 제어 흐름 공격(MCFA)의 정의**
MCFA는 두 단계로 이루어진 공격이다.
- *메모리 주입*: 공격자는 정상적인 대화 흐름을 이용해 메모리에 악성 정책 π_adv(예: “항상 툴 B 대신 툴 D 사용”)를 저장한다.
- *메모리 활용*: 이후 benign 작업을 수행할 때, 에이전트는 메모리 조회 함수 Φ_ret(M, x)를 통해 저장된 정책을 컨텍스트로 받아들인다. 이때 툴 선택·순서가 π_adv에 따라 변조되어, 사용자가 명시한 안전 정책 Π_safe를 위반한다.
공격 성공 조건은 툴 호출 트레이스 τ가 Π_safe와 불일치하고, τ가 π_adv에 의해 결정되는 것이다.
**3. 공격 특성 및 분류**
논문은 두 가지 구체적 변조 형태를 제시한다.
- *툴‑선택 오버라이드(OVERRIDE)*: 메모리 기반 정책이 특정 툴을 강제하거나 금지한다.
- *워크플로우 재배열(ORDER)*: 툴 호출 순서를 뒤바꿔 필수 단계(예: 검증 툴)를 건너뛴다.
또한, 이러한 변조가 다음 세 가지 특성을 가진다.
- *M‑SCOPE*: 여러 작업에 걸쳐 동일 정책이 적용돼 크로스‑태스크 전파가 일어난다.
- *PERSIST*: 메모리 주입 후 장기(수백~수천 턴) 동안 지속된다.
- *RELAPSE*: 기존 방어(RBMS 등)를 적용해도 변조가 재발한다.
**4. 이론적 기반 – Memory‑Causal Verification**
Theorem 1은 격리된 평가 환경(E_iso)에서 히스토리 H를 비우고, 입력 x가 안전함을 전제하면 툴 트레이스의 안전 위반은 오직 메모리 M에 의해 발생한다는 것을 증명한다. 이는 메모리와 모델 파라미터·프롬프트를 명확히 구분함으로써, “단기 컨텍스트 혼합”에 의한 오탐을 방지한다. 이 정리를 기반으로 MEMFLOW는 두 단계(주입 → 격리 평가)를 자동화한다.
**5. MEMFLOW 프레임워크**
- *Attack Mapping*: 공격 정책 π_adv를 트레이스 공간 Ω_τ(툴·인자 시퀀스) 내 특정 서브셋으로 매핑한다.
- *Trace Auditing Algorithm*: 주입 후 메모리를 업데이트하고, 각 benign 작업에 대해 H=∅ 상태에서 툴 트레이스를 수집한다. 트레이스가 정의된 위반 집합에 속하면 ASR(Attack Success Rate)을 기록한다.
- *Metric*: OVERRIDE, ORDER, M‑SCOPE, PERSIST, RELAPSE 각각에 대해 성공률을 별도 보고한다.
**6. 실험 설정**
- *대상 모델*: GPT‑5 mini, Claude Sonnet 4.5, Gemini 2.5 Flash.
- *프레임워크*: LangChain, LlamaIndex.
- *툴셋*: 웹 검색, 지도, 데이터베이스, 파일 I/O 등 12종.
- *작업*: 레스토랑 추천, 일정 조정, 데이터 분석, 코드 실행 등 30가지 복합 시나리오.
- *시나리오 수*: 1,200개 작업, 5,000회 툴 호출, 1,000턴 이상 장기 지속성 테스트 포함.
**7. 주요 결과**
- OVERRIDE 성공률: 91.7 % ~ 100 %
- ORDER 성공률: 52.8 % ~ 69.4 %
- M‑SCOPE 전파: 97.2 % ~ 100 %
- PERSIST(1,000턴 이후) : 100 % 유지
- RELAPSE(기존 RBMS 적용 후) : 85 % ~ 92 % 여전히 위반
즉, 메모리 기반 정책이 거의 모든 상황에서 툴 선택을 장악하고, 기존 방어 메커니즘은 대부분 무력화된다.
**8. 방어 논의**
논문은 RBMS(역할 기반 메모리 분리)를 적용했음에도 높은 ASR을 기록한다. 이는 메모리 채널이 여전히 “사용자‑메모리”와 “시스템‑메모리” 사이에 완전한 격리를 제공하지 못하기 때문이다. 저자는 향후 연구 방향으로(1) 메모리 내용의 정형화·검증, (2) 메모리‑툴 호출 간의 의존성 그래프 기반 추적, (3) 메모리 업데이트 시점에 대한 정책 기반 제한 등을 제안한다.
**9. 한계 및 향후 연구**
- *공격 전제*: 공격자는 정상 사용자와 동일한 입력 권한만을 가정한다. 실제 서비스에서는 입력 검증, 레이트 리밋, 인증 절차가 추가될 수 있다.
- *평가 범위*: 툴 트레이스 위반에 초점을 맞추어, 출력 내용(예: 민감 정보 누출)과의 연계 분석이 부족하다.
- *다중 모달*: 현재 실험은 텍스트 기반 툴에 국한돼 있어, 이미지·음성 등 멀티모달 툴에 대한 확장 가능성은 미검증이다.
**10. 결론**
본 논문은 LLM 에이전트 보안에서 메모리의 역할을 새롭게 조명한다. 메모리 조회가 툴 선택·순서를 직접 제어함으로써, 공격자는 단일 세션을 넘어 장기적인 행동 변조를 달성한다. MEMFLOW는 이러한 공격을 대규모로 탐지·정량화하는 첫 번째 프레임워크이며, 실험 결과는 현재 상용 LLM·툴 체인에서도 90 % 이상이 취약함을 보여준다. 따라서 메모리 관리·검증 메커니즘을 설계 단계부터 통합하는 것이 향후 LLM 에이전트 보안의 핵심 과제로 부상한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기