AgentSHAP LLM 에이전트 도구 중요도 해석을 위한 몬테카를로 샤플리 값 추정

읽는 시간: 3 분
...

📝 원문 정보

  • Title: AgentSHAP: Interpreting LLM Agent Tool Importance with Monte Carlo Shapley Value Estimation
  • ArXiv ID: 2512.12597
  • 발행일: 2025-12-14
  • 저자: Miriam Horovicz

📝 초록 (Abstract)

LLM 에이전트가 외부 도구를 활용하면 복잡한 과제를 해결할 수 있지만, 실제로 어떤 도구가 응답에 기여했는지는 알기 어렵다. 기존 XAI 방법은 토큰이나 이미지 영역 수준의 설명만 제공하고 도구 수준의 설명은 다루지 않는다. 본 논문은 이러한 공백을 메우기 위해 AgentSHAP이라는 최초의 도구 중요도 설명 프레임워크를 제안한다. AgentSHAP은 에이전트를 블랙박스로 취급해 모델 종류에 구애받지 않으며, 몬테카를로 샤플리 값을 이용해 다양한 도구 조합에 대한 에이전트의 반응을 샘플링하고 공정한 기여 점수를 계산한다. 주요 기여는 (1) 게임 이론 기반 샤플리 값을 활용한 도구 귀속 설명 방법 제시, (2) 조합 수가 2ⁿ인 문제를 실용적인 수준으로 낮춘 몬테카를로 샘플링 기법, (3) API‑Bank 실험을 통해 점수의 일관성, 도구 식별 정확도, 관련·비관련 도구 구분 능력을 입증한 것이다. AgentSHAP은 TokenSHAP, PixelSHAP에 이어 생성형 AI에 적용 가능한 샤플리 기반 XAI 도구군을 완성한다.

💡 논문 핵심 해설 (Deep Analysis)

AgentSHAP은 현재 급부상하는 LLM 기반 에이전트가 외부 API, 데이터베이스, 검색 엔진 등 다양한 도구를 동적으로 호출하는 상황에서 “어떤 도구가 실제로 의사결정에 영향을 미쳤는가?”라는 근본적인 질문에 답한다는 점에서 의미가 크다. 기존 설명 가능 인공지능(XAI) 연구는 주로 입력 토큰의 중요도(TokenSHAP)나 이미지 픽셀 영역(PixelSHAP) 등 모델 내부의 특징에 초점을 맞추었으며, 도구 호출이라는 고차원적인 행동을 평가하는 방법은 제시되지 않았다. AgentSHAP은 에이전트를 ‘게임’으로 보고 각 도구를 ‘플레이어’로 간주한다. 샤플리 값은 협력 게임 이론에서 모든 플레이어가 공정하게 기여도를 나누는 유일한 해법으로, 여기서는 특정 도구가 포함된 경우와 제외된 경우의 에이전트 출력 차이를 평균화함으로써 도구의 기여도를 정량화한다.

핵심 기술은 두 가지다. 첫째, 모든 가능한 도구 조합(2ⁿ)을 직접 평가하면 계산 비용이 폭발적으로 증가한다는 점을 인식하고, 몬테카를로 샘플링을 통해 조합을 무작위로 추출해 근사값을 얻는다. 논문에서는 샘플 수를 n·log n 수준으로 제한하면서도 추정 오차를 이론적으로 바운드하는 방법을 제시한다. 둘째, 에이전트를 블랙박스로 다루기 때문에 LLM의 내부 파라미터나 그래디언트에 접근할 필요가 없으며, GPT, Claude, Llama 등 다양한 모델에 그대로 적용 가능하다.

실험에서는 공개된 API‑Bank 벤치마크를 사용해 10여 개의 도구가 포함된 시나리오를 구성하고, AgentSHAP이 도구 중요도를 일관되게 재현함을 보여준다. 특히, 실제 작업 수행에 필수적인 도구와 무관한 도구를 명확히 구분해 내는 정밀도와 재현율이 기존 베이스라인(예: 단순 빈도 기반, 무작위 샘플링)보다 현저히 높았다. 또한, 동일 입력에 대해 여러 번 실행해도 샤플리 값의 변동성이 낮아 신뢰할 수 있는 설명을 제공한다는 점을 강조한다.

이러한 결과는 두 가지 실용적 함의를 가진다. 첫째, 개발자는 AgentSHAP을 이용해 에이전트 설계 단계에서 불필요하거나 비용이 높은 도구 호출을 식별하고 최적화할 수 있다. 둘째, 사용자와 규제 기관은 에이전트가 어떤 외부 자원을 활용했는지 투명하게 확인함으로써 책임성 및 신뢰성을 확보할 수 있다. 향후 연구에서는 도구 간 상호작용 효과를 더 정교히 모델링하거나, 실시간 스트리밍 환경에서 샤플리 값을 점진적으로 업데이트하는 방법을 탐색할 여지가 있다.

📄 논문 본문 발췌 (Translation)

LLM 에이전트가 외부 도구를 활용함으로써 복합적인 과제를 해결할 수 있지만, 실제로 어떤 도구가 최종 응답에 기여했는지를 파악하는 것은 여전히 미지의 영역이다. 기존의 설명 가능 인공지능(XAI) 기법은 토큰 수준(TokenSHAP)이나 이미지 영역 수준(PixelSHAP)에서의 설명에 국한되어 있으며, 도구 수준의 귀속 설명을 제공하지 못한다. 본 연구는 이러한 공백을 메우기 위해 AgentSHAP이라는 최초의 도구 중요도 설명 프레임워크를 제안한다. AgentSHAP은 에이전트를 블랙박스로 취급하여 모델 종류에 구애받지 않으며(GPT, Claude, Llama 등), 몬테카를로 샤플리 값 추정을 통해 다양한 도구 부분집합에 대한 에이전트의 응답을 샘플링하고, 게임 이론에 기반한 공정한 중요도 점수를 계산한다.

본 논문의 주요 기여는 다음과 같다. (1) 게임 이론의 샤플리 값을 기반으로 한 에이전트 도구 귀속 설명 방법을 최초로 제시한다. (2) 조합 수가 2ⁿ에 달하는 전수 탐색의 비용을 몬테카를로 샘플링을 통해 실용적인 수준으로 낮추는 알고리즘을 설계한다. (3) 공개된 API‑Bank 벤치마크에서 수행한 포괄적인 실험을 통해 AgentSHAP이 실행 간 일관된 점수를 제공하고, 실제로 중요한 도구를 정확히 식별하며, 관련 없는 도구와의 구분 능력이 뛰어남을 입증한다.

AgentSHAP은 TokenSHAP(토큰), PixelSHAP(이미지 영역)와 함께 현대 생성형 AI에 적용 가능한 샤플리 기반 XAI 도구군을 완성한다. 이는 LLM 에이전트의 투명성 및 책임성을 강화하고, 도구 선택 최적화와 비용 절감에 실질적인 도움을 제공한다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키