다중 에이전트 시스템을 위한 정책 컴파일러 PCAS

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PCAS는 기존 LLM 기반 에이전트를 그대로 사용하면서, 의존성 그래프와 Datalog 기반 선언형 정책 언어를 통해 시스템‑레벨 권한 정책을 결정론적으로 강제한다. 정책 위반을 사전 차단하고, 정보 흐름, 승인 워크플로, 조직 규칙 등을 정밀히 추적한다. 실험 결과 고객 서비스 시나리오에서 정책 준수율을 48%에서 93%로 끌어올렸다.

상세 분석

본 논문은 LLM 기반 에이전트가 복잡한 조직 정책을 자연어 프롬프트에만 의존할 경우, 해석 모호성 및 프롬프트 인젝션 공격에 의해 정책 위반이 발생한다는 근본적인 문제를 제기한다. 이를 해결하기 위해 저자들은 두 가지 핵심 설계를 제안한다. 첫째, 에이전트 간 상호작용을 선형 로그가 아니라 ‘의존성 그래프’로 모델링한다. 이 그래프는 툴 호출, 툴 결과, 메시지 전송 등 모든 이벤트를 노드로 두고, 인과 관계를 에지로 연결한다. 따라서 “어떤 정보가 어떤 행동에 전이되었는가”, “승인이 선행했는가”와 같은 정책 판단에 필요한 전이적 근거를 정확히 파악할 수 있다. 둘째, 정책 언어를 Datalog에서 파생된 선언형 DSL로 정의한다. 이 언어는 그래프 위에서 재귀 쿼리를 허용해 전이 폐쇄(transitive closure)를 자연스럽게 표현하며, 속성 기반 접근 제어(ABAC) 모델을 그래프 속성에 매핑한다. 정책은 ‘action’, ‘agent’, ‘context(그래프)’ 삼요소를 입력으로 받아 Boolean 결과를 반환한다.

PCAS의 실행 흐름은 기존 에이전트 구현을 자동으로 계측(instrument)하여 모든 행동 전후에 ‘레퍼런스 모니터’를 삽입한다. 모니터는 현재 그래프 상태와 정책 규칙을 차례로 평가하고, 위반이 감지되면 해당 행동을 차단한다. 정책 평가 자체는 Differential Datalog 기반의 증분 엔진으로 구현돼, 그래프가 실시간으로 변해도 평가 비용이 선형이 아닌 로그 수준으로 유지된다. 이는 정책 검증이 실행 경로에 병목을 일으키지 않도록 보장한다.

보안 측면에서 PCAS는 모델 내부의 추론을 우회하는 외부 공격(프롬프트 인젝션, 적대적 입력)에도 강인하다. 공격자가 에이전트를 오도해도, 레퍼런스 모니터가 실제 그래프와 정책을 독립적으로 검증하므로 위반 행동은 실행되지 않는다. 또한 정책 언어가 종료성을 보장하도록 설계돼, 무한 재귀나 DoS 위험을 사전에 차단한다.

실험에서는 세 가지 도메인(프롬프트 인젝션 방어, 약물 감시 승인 워크플로, 고객 서비스 조직 정책)을 선택해, 기존 프롬프트 기반 방어와 비교했다. 특히 고객 서비스 벤치마크 τ2‑bench에서 Claude Opus 4.5, GPT‑5.2, Gemini 3 Pro 등 최신 모델을 그대로 사용했음에도, PCAS 적용 후 정책 위반이 0건으로 감소하고, 전체 정책 준수율이 1.68배~2.93배 향상되었다.

한계점으로는 그래프 유지 비용이 에이전트 수와 상호작용 빈도에 비례해 증가한다는 점과, 현재 정책 언어가 시간 기반 제약(예: “5분 이내에 승인”)을 직접 지원하지 않아 별도 확장이 필요하다는 점을 언급한다. 향후 작업으로는 그래프 압축 기법, 정책 검증의 형식적 증명, 그리고 정책 언어에 시계열 연산자를 추가하는 방안을 제시한다.

다중 에이전트 시스템을 위한 정책 컴파일러 PCAS

초록

상세 분석

댓글 및 학술 토론

의견 남기기