보안과 자율성을 위한 에이전트 계획 최적화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 정보 흐름 제어(IFC) 기반의 결정론적 방어를 적용한 AI 에이전트가 인간‑인‑루프(HITL) 의존도를 낮추는 ‘자율성’ 지표를 제안하고, 정책 인식을 계획에 통합한 PRUDENTIA 설계를 통해 기존 방어 대비 작업 완수율과 HITL 부하 모두에서 개선을 달성함을 실증한다.

상세 분석

이 연구는 간접 프롬프트 인젝션(PIA) 위협에 대응하기 위해 기존의 확률적 방어가 제공하는 불확실한 보안 수준을 넘어, 라벨 기반의 정보 흐름 제어(IFC)를 활용한 결정론적 방어를 채택한다. IFC는 데이터와 도구 호출에 기밀성·무결성 라벨을 부착하고, 라벨 전파 규칙에 따라 파생 데이터의 라벨을 조정한다. 정책은 라벨이 허용 수준 이하인지 검사해 안전한 호출만을 허용하거나, 위반 시 인간 승인을 요구한다. 이러한 구조는 ‘안전성 보장’이라는 강력한 특성을 제공하지만, 라벨이 과도하게 오염될 경우 에이전트가 정상적인 작업을 수행하지 못해 유틸리티가 감소한다는 기존 연구의 한계가 있다.

논문은 이 한계를 ‘자율성’이라는 새로운 평가 차원으로 재조명한다. 자율성은 (1) HITL 부하—성공적인 작업 수행 중 인간이 개입한 횟수—와 (2) TCR@k—k번 이하의 HITL 개입으로 완료된 작업 비율—두 지표로 정의된다. 기존 연구는 주로 TCR@∞(무제한 인간 개입)과 TCR@0(전면 자동)만을 비교했으나, 이 논문은 k값을 변화시켜 전체 자율성‑유틸리티 곡선을 제시함으로써 방어 메커니즘의 실제 운영 효율을 정량화한다.

핵심 기여는 PRUDENTIA라는 에이전트 설계이다. PRUDENTIA는 (i) 도구 설명에 포함된 정책 라벨을 학습해 라벨과 정책을 사전에 인식하고, (ii) 변수 확장 시 라벨 오염을 최소화하기 위해 ‘계획 도구’를 사용해 확장 이유와 후속 호출을 명시하도록 강제한다. 또한, 인간에게 ‘승인(approval)’이 아닌 ‘인증(endorsement)’을 요청함으로써, 사용자가 데이터를 신뢰된(T) 라벨로 전환하면 이후 호출이 정책 위반 없이 진행될 수 있게 한다. 이러한 설계는 에이전트가 라벨 오염을 예측하고 회피하도록 유도해, 불필요한 HITL 개입을 감소시킨다.

실험은 Microsoft의 IFC 방어인 FIDES 위에 PRUDENTIA를 구현하고, AgentDojo와 WASP 두 벤치마크에서 평가했다. 결과는 기본 IFC가 HITL 부하를 최대 1.5배 감소시키면서 유틸리티 손실이 없음을 보여준다. PRUDENTIA는 FIDES 대비 (a) TCR@0에서 최대 9% 높은 작업 완수율, (b) 전체 HITL 부하를 최대 1.9배 감소시켰으며, WASP에서는 완전 자율(히트L 부하 0)을 달성했다. 이는 정책 인식을 계획 단계에 통합함으로써 라벨 오염을 사전에 회피하고, 인간 개입을 최소화하면서도 보안은 유지한다는 중요한 인사이트를 제공한다.

이 논문은 보안‑자율성 트레이드오프를 정량화하고, 정책‑인식 플래닝이 결정론적 방어의 실용성을 크게 향상시킬 수 있음을 실증한다. 향후 연구는 라벨 전파 모델을 더 정교화하고, 다양한 도구 세트와 복합 정책 환경에서의 확장성을 검증하는 방향으로 나아갈 수 있다.

보안과 자율성을 위한 에이전트 계획 최적화

초록

상세 분석

댓글 및 학술 토론

의견 남기기