에이전트 안전을 위한 사고 대응 프레임워크 AIR
초록
본 논문은 대형 언어 모델(LLM) 에이전트의 안전성을 강화하기 위해 사고 대응(Incident Response) 전용 프레임워크인 AIR를 제안한다. AIR는 DSL 기반의 트리거·체크·복구 규칙을 정의하고, 에이전트 실행 루프에 삽입해 실시간 사고 탐지·격리·복구·근절을 자동화한다. 세 종류의 대표 에이전트에 적용한 실험에서 90% 이상 높은 탐지·복구·근절 성공률을 보이며, LLM이 생성한 규칙도 개발자 작성 규칙에 근접한 효과를 나타냈다.
상세 분석
AIR는 기존 LLM 에이전트 안전 연구가 사전 예방에만 초점을 맞춘 점을 보완하고, 사고 발생 후의 전 과정(Detection, Containment, Recovery, Eradication)을 자동화한다는 점에서 혁신적이다. 핵심 기술은 도메인‑특화 언어(DSL)이다. DSL은 trigger, check, remediate 세 블록으로 구성되며, 자연어 형태의 check와 remediate 문장을 LLM이 해석해 실행한다. trigger는 특정 툴 호출에만 규칙을 활성화함으로써 연산 오버헤드를 최소화한다. 이는 기존의 전역 가드레일(rule) 방식과 달리 상황‑특화 대응을 가능하게 한다.
실행 시점에서 AIR는 에이전트가 한 단계 작업을 마친 뒤 현재 환경 상태와 최근 관찰을 수집하고, 활성화된 DSL 규칙을 LLM에게 전달한다. LLM은 자연어 기반 check를 평가해 사고 여부를 판단하고, 사고가 확인되면 remediate에 명시된 순서대로 툴을 호출해 격리와 복구를 수행한다. 복구 후에는 동일 사고를 예방하기 위한 guardrail 규칙을 자동 생성한다. 이 guardrail은 이후 플랜 생성 단계에서 플랜‑레벨 검증으로 작동해 동일 유형의 사고를 사전에 차단한다.
세 가지 에이전트(코드 작성 에이전트, 구현형(embodied) 에이전트, 컴퓨터‑사용 에이전트)에 대한 실험 결과, 사고 탐지율 92%‒96%, 복구·근절 성공률 95%‒98%를 기록했다. 특히 LLM이 자동 생성한 DSL 규칙이 개발자가 수작업으로 만든 규칙과 통계적으로 유의미하게 차이가 없었으며, 오버헤드도 평균 5% 이하로 제한돼 실시간 시스템에 적용 가능함을 보여준다.
한편, AIR의 한계도 존재한다. DSL의 자연어 해석에 의존하기 때문에 LLM의 이해 능력에 따라 오탐·미탐이 발생할 수 있다. 또한 현재 구현은 OpenAI Agent SDK에 종속돼 있어 다른 플랫폼으로의 이식성이 제한적이다. 향후 연구에서는 DSL의 형식화 수준을 조절해 해석 오류를 줄이고, 멀티‑모달 환경(예: 비전·음성)에서도 적용 가능한 확장성을 탐색해야 한다.
요약하면, AIR는 LLM 에이전트 안전을 위한 사고 대응을 체계화한 최초의 프레임워크이며, DSL 기반의 유연한 규칙 정의와 에이전트 루프와의 자연스러운 통합을 통해 실시간 대응과 사후 방지를 동시에 달성한다는 점에서 학술적·실용적 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기