ST‑WebAgentBench: 기업용 웹 에이전트 안전·신뢰성 평가 벤치마크
초록
본 논문은 웹 에이전트가 업무를 성공적으로 수행하더라도 안전성과 정책 준수 여부를 간과하는 기존 벤치마크의 한계를 지적한다. 이를 해결하기 위해 375개의 실제 기업 시나리오와 3 057개의 정책 규칙을 결합한 ST‑WebAgentBench를 제안하고, 정책을 모두 만족한 경우에만 점수를 부여하는 Completion‑under‑Policy(CuP)와 차원별 위반 비율을 나타내는 Risk Ratio를 새롭게 정의한다. 세 개의 최신 오픈소스 에이전트를 평가한 결과, 명목상의 완료율은 24 % 수준이지만 CuP는 15 %에 불과해 정책 위반이 빈번함을 보여준다. 코드와 정책 작성 인터페이스를 공개함으로써 기업 환경에서 신뢰할 수 있는 웹 에이전트 개발을 촉진한다.
상세 분석
ST‑WebAgentBench는 기존 웹 에이전트 벤치마크가 “작업 완료 여부”만을 측정하고, 안전·신뢰성(Safety & Trustworthiness, ST) 요소를 무시한다는 근본적인 문제를 정확히 짚어낸다. 논문은 먼저 기업 현장에서 발생할 수 있는 10가지 위험 요인을 문헌 조사와 실무자 인터뷰를 통해 도출하고, 중복을 제거해 6가지 독립적인 차원(사용자 동의, 경계·범위, 엄격 실행, 계층 준수, 견고성·보안, 오류 처리)으로 정제한다. 각 차원은 사전 정의된 정책 템플릿(예: “삭제 전 사용자 확인 요구”, “보호된 브랜치 접근 금지”)을 통해 구체화되며, 375개의 태스크에 평균 8개의 정책이 매핑된다.
핵심 메트릭인 CuP는 “작업 성공(CR) ∧ 정책 위반 0”이라는 이중 조건을 만족할 때만 1점으로 인정한다. 이는 단순히 과감히 행동하는 에이전트와 과도하게 보수적인 에이전트 모두를 동일선상에서 평가하도록 설계돼, 실제 기업 운영에서 요구되는 ‘안전하면서도 효율적인’ 행동을 정량화한다. 부분 완료를 허용하는 pCuP와 차원별 위반 비율을 나타내는 Risk Ratio는 각각 정책을 위반하지 않은 부분 진행 상황과 위험 집중도를 파악하는 데 유용하다.
실험에서는 최신 SOTA 오픈소스 에이전트 세 종(예: AgentE, WebPilot, AutoEval)을 적용했으며, 평균 CR이 24.3%였음에도 CuP는 15.0%로 급감한다. 특히 정책 수가 5개 이상인 복합 태스크에서는 CuP가 7.1%로 급락한다. 이는 현재 LLM 기반 에이전트가 정책 해석·우선순위 판단에 약함을 시사한다. 또한 “Modality Challenge”를 통해 시각(스크린샷)과 DOM 정보의 기여도를 분리 분석했는데, 시각 정보만으로는 정책 위반을 크게 감소시키지 못했으며, DOM 기반 구조 파악이 핵심임을 확인했다.
벤치마크의 장점은 (1) 확장 가능한 JSON 기반 정책 정의, (2) 인간‑인‑루프(HITL) 후퇴 메커니즘 제공, (3) BrowserGym과 연동된 실제 웹 환경 사용이다. 그러나 제한점도 존재한다. 첫째, 정책 템플릿이 현재 6차원에 국한돼 있어, 예외적인 법적·규제 요구사항(예: HIPAA, PCI‑DSS)에는 추가 작업이 필요하다. 둘째, 평가에 사용된 세 에이전트가 모두 오픈소스이며, 상업용 고성능 모델을 포함하지 않아 일반화 가능성이 제한된다. 셋째, 정책 위반 감지는 현재 UI 액션 로그와 매핑된 규칙 기반 검사에 의존하므로, 미세한 의도적 변조(프롬프트 인젝션)까지 포착하지 못할 가능성이 있다.
향후 연구 방향으로는 (a) 정책 자동 생성·검증 파이프라인 구축, (b) 다중 조직·다중 사용자 시나리오에서의 정책 충돌 해결 알고리즘 개발, (c) 실시간 위험 감지를 위한 강화학습 기반 안전 제어기 도입이 제시된다. 전반적으로 ST‑WebAgentBench는 기업용 웹 에이전트의 안전·신뢰성을 체계적으로 측정할 수 있는 최초의 종합 프레임워크이며, 향후 표준 벤치마크로 자리매김할 잠재력을 갖는다.
댓글 및 학술 토론
Loading comments...
의견 남기기