다이나트러스트: 동적 신뢰 그래프로 잠복 에이전트 방어

다이나트러스트는 멀티에이전트 시스템을 동적 신뢰 그래프로 모델링하고, 베이지안 신뢰 평활화와 신뢰‑신뢰도 가중 합의를 통해 잠복 에이전트를 실시간으로 탐지·격리한다. 위협이 감지되면 그래프를 재구성해 복제 에이전트를 삽입, 시스템 가용성을 유지한다. AdvBench·HumanEval 기반 벤치마크에서 기존 최첨단 AgentShield 대비 방어 성공률을 41.7% 향상시키고, 오탐률을 크게 낮추었다.

저자: Yu Li, Qiang Hu, Yao Zhang

본 논문은 대규모 언어 모델(LLM) 기반 멀티에이전트 시스템(MAS)에서 발생할 수 있는 **잠복 에이전트(sleeper agent)** 위협을 방어하기 위한 새로운 프레임워크 **다이나트러스트(DynaTrust)** 를 제안한다. 잠복 에이전트는 일상적인 상호작용에서는 정상적으로 동작하지만, 특정 트리거가 발생하면 악의적인 명령을 실행한다. 기존 방어 기법은 정적 정책이나 단순 차단에 의존해 높은 오탐률과 시스템 가용성 저하를 초래한다. 다이나트러스트는 MAS를 **동적 신뢰 그래프(Dynamic Trust Graph, DTG)** 로 모델링한다. 그래프의 노드는 각각 LLM 기반 에이전트를, 에지는 현재 허용된 통신 채널을 나타낸다. 각 에이전트는 시간에 따라 변하는 신뢰 점수 Tᵢ(t)∈

다이나트러스트: 동적 신뢰 그래프로 잠복 에이전트 방어

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기