에이전트감시자 인간 수준 LLM 에이전트 안전 보안 평가
초록
AgentAuditor는 기존 규칙 기반·LLM 기반 평가기의 한계를 극복하기 위해 메모리‑증강 추론 프레임워크를 제안한다. 과거 상호작용을 구조화된 특징과 체인‑오브‑생각(CoT)으로 저장하고, 다단계 검색‑생성 과정을 통해 새로운 에이전트 행동을 인간 전문가 수준으로 평가한다. ASSEBench라는 2,293개의 라벨링된 데이터셋을 구축해 실험을 수행했으며, 주요 LLM에 대해 인간 수준 정확도를 달성했다.
상세 분석
본 논문은 LLM 기반 에이전트의 안전·보안 평가가 기존 방법으로는 충분히 다루기 어려운 복합적·동적 위험을 포함한다는 점을 지적한다. 규칙 기반 평가기는 명시적 키워드·패턴에 의존해 해석 가능성은 높지만, 암시적 위험이나 상황 의존적 판단을 놓치기 쉽다. 반면 LLM 기반 평가기는 풍부한 의미 이해가 가능하지만, 일관성·편향·해석 가능성 부족이라는 문제를 안고 있다. 이러한 양극단의 한계를 보완하기 위해 AgentAuditor는 세 단계의 메모리‑증강 파이프라인을 설계한다. 첫 번째 단계에서는 원시 에이전트 상호작용 기록을 LLM에게 “시나리오, 위험 유형, 행동 모드”와 같은 구조화된 특징을 추출하도록 프롬프트하고, 이를 Nomic‑Embed‑Text‑v1.5 모델로 벡터화한다. 여기서 인간이 읽을 수 있는 구조화 메모리와 기계가 연산 가능한 임베딩을 동시에 보관함으로써 해석 가능성과 검색 효율을 동시에 확보한다. 두 번째 단계에서는 고차원 특징 벡터에 L2 정규화와 가중치 스케일링을 적용하고, PCA로 차원을 축소한 뒤 FINCH 군집화를 이용해 데이터 전체의 10% 수준인 대표 샷을 자동 선택한다. 선택된 샷마다 사전 정의된 CoT 템플릿을 사용해 LLM이 고품질 사고 흐름을 생성하도록 함으로써, 인간 전문가가 제공하는 ‘경험’과 유사한 추론 메모리를 만든다. 마지막 단계는 새로운 평가 대상 쿼리에 대해 전체 임베딩과 대표 샷 임베딩 간 코사인 유사도를 계산해 상위 K개의 CoT를 검색하고, 이를 현재 입력과 결합해 최종 프롬프트를 구성한다. 이 과정은 “검색‑증강‑생성(RAG)” 형태로, LLM가 과거 경험을 직접 참조하면서도 현재 상황에 맞는 판단을 내릴 수 있게 한다. 논문은 또한 ASSEBench라는 벤치마크를 새롭게 제시한다. 15가지 위험 유형, 29개 시나리오, 528개의 환경을 포괄하는 2,293개의 인터랙션 레코드를 인간·컴퓨터 협업 라벨링으로 구축했으며, ‘엄격’·‘관대’ 두 가지 판단 기준을 제공한다. 실험 결과, Gemini‑2.0‑Flash‑Thinking, GPT‑4, Claude 등 주요 LLM에 AgentAuditor를 적용했을 때 F1 점수가 96%에 육박하고, 인간 전문가와 거의 동등한 정확도를 기록했다. 특히 기존 few‑shot 프롬프트나 파인‑튜닝 기반 평가기 대비 일관성·해석 가능성·성능 모두에서 유의미한 개선을 보였다. 이 연구는 LLM 에이전트의 안전·보안 평가에 메모리‑증강 추론이 핵심적인 역할을 할 수 있음을 실증적으로 입증했으며, 향후 인간‑기계 협업 평가 체계 구축에 중요한 토대를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기