인증된 워크플로우로 에이전트 AI 보안 강화
초록
본 논문은 에이전트형 AI가 기업 워크플로우를 자동화하는 과정에서 발생하는 보안 취약점을 해결하기 위해 ‘인증된 워크플로우’라는 프로토콜 레벨 방어 체계를 제안한다. 프롬프트·툴·데이터·컨텍스트 네 가지 경계에 대해 의도(intent)와 무결성(integrity)을 암호학적으로 검증하고, AI‑네이티브 정책 언어 MAPL을 통해 동적·계층적 정책을 정의한다. 9개의 주요 AI 프레임워크에 대한 경량 어댑터 구현과 형식적 증명, 174개 테스트 케이스에서 100% 재현율·0% 오탐을 달성한 실험 결과를 제시한다.
상세 분석
이 논문은 에이전트형 AI 시스템을 “바이잔틴 분산 시스템”으로 모델링하고, 보안 문제를 네 개의 기본 경계(프롬프트, 툴, 데이터, 컨텍스트)로 축소한다. 각 경계마다 두 가지 핵심 속성을 강제한다. 첫째, Intent – 조직 정책에 부합하는지 여부를 정책 엔진이 실시간으로 판단한다. 둘째, Integrity – 모든 요청과 응답에 암호 서명을 부착해 변조를 방지한다. 이때 사용되는 암호 원시(primitives)은 디지털 서명, 해시 체인, Merkle 트리 등으로, 공격자는 암호학적 난이도를 깨뜨려야만 경계를 우회할 수 있다.
핵심 기여는 **MAPL (AI‑Native Policy Language)**이다. MAPL은 정책을 계층적으로 구성할 수 있는 extends 필드를 제공해 조직‑부서‑팀 수준의 정책을 자연스럽게 겹쳐 적용한다. 정책은 리소스 패턴, 파라미터 제약, 거부 패턴, 필수 증명(attestation) 네 요소로 정의되며, 증명은 이전 작업이 성공적으로 수행됐음을 암호화된 클레임 형태로 제공한다. 이를 통해 “데이터 익명화가 완료된 후에만 외부 전송 허용”과 같은 순차적 의존성을 강제할 수 있다.
논문은 또한 **분산 정책 시행점(PEP)**을 각 경계에 삽입해 중앙 집중식 인프라 없이도 서브밀리초 수준의 검증을 가능하게 한다. PEP는 독립적으로 서명을 검증하고 정책을 적용하므로, 하나의 PEP가 손상되더라도 다른 경계에서 동일한 검증이 수행돼 방어 깊이가 확보된다.
실제 구현에서는 OpenAI, Claude, LangChain, CrewAI, AutoGen, LlamaIndex, Haystack 등 9개의 주요 프레임워크에 대해 200~500줄 규모의 얇은 어댑터만으로 인증된 워크플로우를 적용했다. 이는 기존 프레임워크의 프로토콜을 변경하지 않고도 보안 레이어를 삽입할 수 있음을 보여준다.
형식적 측면에서는 경계의 완전성·최소성을 증명하는 Lemma 6, 정책 조합의 보존성을 보이는 Theorem 1‑3, 그리고 전체 시스템의 완전성·음성성을 입증하는 Lemma 1‑7을 제시한다. 실험에서는 174개의 공격 시나리오(프롬프트 인젝션, 툴 남용, 데이터 변조, 컨텍스트 포이즈닝 등)와 실제 서비스에서 발견된 두 건의 CVE를 대상으로 100% 재현율, 0% 오탐을 기록했으며, OWASP Top 10 위험 중 9가지를 완전히 차단했다.
이러한 설계는 기존의 패턴 기반 필터링이 “정밀도는 높지만 재현율이 낮다”는 한계를 극복하고, 결정론적 보안을 제공한다는 점에서 혁신적이다. 암호학적 검증을 기반으로 함으로써 공격자는 새로운 프롬프트 패턴을 고안해도 시스템을 통과할 수 없으며, 오히려 정책 위반 시 즉시 차단된다. 또한 동적 정책과 증명 기반 의존성 관리 덕분에 에이전트가 스스로 진화하거나 서브‑에이전트를 생성해도 보안 경계는 일관되게 유지된다.
요약하면, 논문은 (1) 보안 경계를 네 개로 명확히 정의하고, (2) 각 경계에 암호 서명·정책 검증을 삽입해 의도와 무결성을 보장하며, (3) MAPL을 통해 복잡한 조직 정책을 효율적으로 표현·조합하고, (4) 경량 어댑터와 분산 PEP를 통해 프레임워크 독립적인 구현을 실현하고, (5) 형식적 증명과 실증 실험을 통해 실용성을 입증한다는 일련의 기여를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기