AgentSHAP LLM 에이전트 도구 중요도 해석을 위한 몬테카를로 샤플리 값 추정
📝 원문 정보
- Title: AgentSHAP: Interpreting LLM Agent Tool Importance with Monte Carlo Shapley Value Estimation
- ArXiv ID: 2512.12597
- 발행일: 2025-12-14
- 저자: Miriam Horovicz
📝 초록 (Abstract)
LLM 에이전트가 외부 도구를 활용하면 복잡한 과제를 해결할 수 있지만, 실제로 어떤 도구가 응답에 기여했는지는 알기 어렵다. 기존 XAI 방법은 토큰이나 이미지 영역 수준의 설명만 제공하고 도구 수준의 설명은 다루지 않는다. 본 논문은 이러한 공백을 메우기 위해 AgentSHAP이라는 최초의 도구 중요도 설명 프레임워크를 제안한다. AgentSHAP은 에이전트를 블랙박스로 취급해 모델 종류에 구애받지 않으며, 몬테카를로 샤플리 값을 이용해 다양한 도구 조합에 대한 에이전트의 반응을 샘플링하고 공정한 기여 점수를 계산한다. 주요 기여는 (1) 게임 이론 기반 샤플리 값을 활용한 도구 귀속 설명 방법 제시, (2) 조합 수가 2ⁿ인 문제를 실용적인 수준으로 낮춘 몬테카를로 샘플링 기법, (3) API‑Bank 실험을 통해 점수의 일관성, 도구 식별 정확도, 관련·비관련 도구 구분 능력을 입증한 것이다. AgentSHAP은 TokenSHAP, PixelSHAP에 이어 생성형 AI에 적용 가능한 샤플리 기반 XAI 도구군을 완성한다.💡 논문 핵심 해설 (Deep Analysis)
AgentSHAP은 현재 급부상하는 LLM 기반 에이전트가 외부 API, 데이터베이스, 검색 엔진 등 다양한 도구를 동적으로 호출하는 상황에서 “어떤 도구가 실제로 의사결정에 영향을 미쳤는가?”라는 근본적인 질문에 답한다는 점에서 의미가 크다. 기존 설명 가능 인공지능(XAI) 연구는 주로 입력 토큰의 중요도(TokenSHAP)나 이미지 픽셀 영역(PixelSHAP) 등 모델 내부의 특징에 초점을 맞추었으며, 도구 호출이라는 고차원적인 행동을 평가하는 방법은 제시되지 않았다. AgentSHAP은 에이전트를 ‘게임’으로 보고 각 도구를 ‘플레이어’로 간주한다. 샤플리 값은 협력 게임 이론에서 모든 플레이어가 공정하게 기여도를 나누는 유일한 해법으로, 여기서는 특정 도구가 포함된 경우와 제외된 경우의 에이전트 출력 차이를 평균화함으로써 도구의 기여도를 정량화한다.핵심 기술은 두 가지다. 첫째, 모든 가능한 도구 조합(2ⁿ)을 직접 평가하면 계산 비용이 폭발적으로 증가한다는 점을 인식하고, 몬테카를로 샘플링을 통해 조합을 무작위로 추출해 근사값을 얻는다. 논문에서는 샘플 수를 n·log n 수준으로 제한하면서도 추정 오차를 이론적으로 바운드하는 방법을 제시한다. 둘째, 에이전트를 블랙박스로 다루기 때문에 LLM의 내부 파라미터나 그래디언트에 접근할 필요가 없으며, GPT, Claude, Llama 등 다양한 모델에 그대로 적용 가능하다.
실험에서는 공개된 API‑Bank 벤치마크를 사용해 10여 개의 도구가 포함된 시나리오를 구성하고, AgentSHAP이 도구 중요도를 일관되게 재현함을 보여준다. 특히, 실제 작업 수행에 필수적인 도구와 무관한 도구를 명확히 구분해 내는 정밀도와 재현율이 기존 베이스라인(예: 단순 빈도 기반, 무작위 샘플링)보다 현저히 높았다. 또한, 동일 입력에 대해 여러 번 실행해도 샤플리 값의 변동성이 낮아 신뢰할 수 있는 설명을 제공한다는 점을 강조한다.
이러한 결과는 두 가지 실용적 함의를 가진다. 첫째, 개발자는 AgentSHAP을 이용해 에이전트 설계 단계에서 불필요하거나 비용이 높은 도구 호출을 식별하고 최적화할 수 있다. 둘째, 사용자와 규제 기관은 에이전트가 어떤 외부 자원을 활용했는지 투명하게 확인함으로써 책임성 및 신뢰성을 확보할 수 있다. 향후 연구에서는 도구 간 상호작용 효과를 더 정교히 모델링하거나, 실시간 스트리밍 환경에서 샤플리 값을 점진적으로 업데이트하는 방법을 탐색할 여지가 있다.