노이즈 환경에서 도구 활용 LLM 에이전트 견고성 평가
초록
AgentNoiseBench는 사용자·도구 노이즈를 체계적으로 모델링하고, 기존 에이전트 벤치마크에 제어 가능한 잡음을 주입해 LLM 기반 에이전트의 실환경 강인성을 정량화한다. 다양한 규모·구조의 모델을 평가한 결과, 현재 에이전트는 특히 도구 노이즈에 취약하며, 일반 추론 능력과 환경 견고성은 상관관계가 낮은 것으로 드러났다.
상세 분석
본 논문은 LLM 기반 에이전트가 실제 서비스에서 마주치는 두 종류의 환경 잡음, 즉 사용자‑노이즈와 도구‑노이즈를 정량화·분류하는 데 중점을 둔다. 사용자‑노이즈는 모호·불일치·중복·주제 전이·경계 탐색 등 다섯 가지 하위 유형으로 정의되며, 이는 인간 사용자가 제공하는 지시문의 자연스러운 변동성을 반영한다. 도구‑노이즈는 실행 실패·불완전 응답·오류 출력·오도 신호·중복 정보 등으로 구분돼, 외부 API·툴이 제공하는 불안정성을 모델링한다.
논문은 대규모 사용자‑에이전트 상호작용 로그를 기반으로 빈도·비용 분석을 수행해 위 잡음 유형을 추출하고, 이를 자동화 파이프라인에 통합한다. 핵심은 ‘솔버블( solvable ) 제약’ 하에 잡음을 주입하는 것이다. 즉, 잡음이 과도해 과제 자체가 불가능해지는 상황을 방지하고, 에이전트의 실패가 잡음에 대한 취약성에서 비롯된 것임을 보장한다. 이를 위해 고정된 레퍼런스 에이전트(A_ref)를 이용해 잡음 생성기(G)의 프롬프트 θ를 최적화한다. 최적화 목표는 A_ref의 성능 저하를 최대화하면서 I_solvable(G(x;θ))=1을 만족하도록 하는데, 이는 잡음이 실제 서비스 환경을 모사하면서도 공정한 비교를 가능하게 한다.
평가 프로토콜은 기존 최종 정답 정확도 외에 ‘Trajectory‑Aware’ 메트릭을 도입한다. 각 상호작용 단계 s_i에 대해 단계별 유효성 I_step(s_i,T)를 검증하고, 전체 궤적 I_traj=∧_i I_step을 구한다. 최종 성공은 I_traj와 최종 정답 I_task의 논리곱으로 정의돼, 올바른 답을 얻었더라도 중간 과정이 잡음에 의해 왜곡된 경우를 걸러낸다. 이러한 다차원 평가는 에이전트가 ‘운 좋은’ 답을 우연히 맞추는 현상을 방지한다.
실험에서는 τ2‑Bench, VitaBench, HotPotQA 등 세 가지 대표 벤치마크에 사용자·도구 잡음을 각각 주입해 24개의 모델(오픈소스·폐쇄형, 다양한 파라미터 규모)을 평가했다. 결과는 전반적으로 잡음이 가해질수록 성능이 감소하지만, 감소 폭은 모델마다 크게 차이났다. 특히 도구‑노이즈에 대한 민감도가 사용자‑노이즈보다 현저히 높았으며, ‘생각(Thinking)’ 모드가 활성화된 모델이 전반적으로 더 높은 복원력을 보였다. 그러나 일반 추론 능력(예: 비툴 기반 QA)과 환경 견고성 사이의 상관계수는 낮아, 기존 추론 성능만으로 실환경 강인성을 예측하기 어렵다는 점을 강조한다.
이 논문은 잡음 모델링·주입·평가의 전 과정을 표준화함으로써, 향후 LLM 에이전트 개발 시 ‘노이즈‑내성’ 설계와 벤치마크가 필수 요소가 될 것을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기