에이전트샤프 LLM 도구 중요도 해석을 위한 몬테카를로 샤플리 값 추정

초록

본 논문은 외부 도구를 활용하는 대형 언어 모델(LLM) 에이전트의 도구 기여도를 샤플리 값으로 정량화하는 AgentSHAP 프레임워크를 제안한다. 모델을 블랙박스로 취급해 Monte Carlo 샘플링으로 조합 공간을 효율적으로 탐색하고, API‑Bank 실험을 통해 일관성·정확성을 입증한다.

상세 분석

AgentSHAP은 기존 XAI 연구가 토큰이나 이미지 픽셀 수준에 머물렀던 한계를 넘어, LLM 에이전트가 호출하는 외부 툴 자체의 중요도를 설명한다는 점에서 혁신적이다. 핵심 아이디어는 에이전트를 ‘협력 게임’의 플레이어로 보고, 각 도구를 ‘플레이어’로 간주해 샤플리 값을 계산하는 것이다. 샤플리 값은 모든 가능한 도구 부분집합에 대한 기여도를 평균화함으로써 공정성을 보장한다. 하지만 2ⁿ개의 부분집합을 모두 평가하면 계산 비용이 급격히 증가한다. 이를 해결하기 위해 논문은 Monte Carlo 샘플링을 도입해 무작위로 순열을 생성하고, 각 순열에서 도구가 추가될 때마다 에이전트의 출력 변화를 측정한다. 이 과정은 O(2ⁿ)에서 샘플 수 k에 비례하는 O(k·n)으로 축소된다.

구현 측면에서 AgentSHAP은 LLM 자체에 대한 접근 권한이 전혀 필요하지 않다. 프롬프트를 통해 에이전트에게 특정 도구 집합만 사용할 수 있도록 제한하고, 제한된 환경에서 질문에 대한 응답을 수집한다. 이렇게 얻은 응답을 기준값(모든 도구 사용 시)과 비교해 차이를 기여도로 환산한다. 중요한 설계 요소는 (1) 도구 호출 순서가 결과에 미치는 영향을 고려하기 위해 순열 기반 샘플링을 사용하고, (2) 응답 품질을 정량화하기 위해 ROUGE, BLEU 등 텍스트 유사도 지표와 도메인‑특화 메트릭을 혼합했다는 점이다.

실험에서는 다양한 LLM(GPT‑4, Claude‑2, Llama‑2)과 10여 개의 도구(검색, 계산, 데이터베이스, 이미지 생성 등)를 조합한 API‑Bank 벤치마크를 활용했다. 결과는 세 가지 관점에서 평가되었다. 첫째, 동일 질문에 대해 여러 번 실행해도 샤플리 점수의 변동성이 낮아 재현성이 높았다. 둘째, 인간 전문가가 사전에 지정한 ‘핵심 도구’와 높은 상관관계를 보이며, 불필요한 도구는 낮은 점수를 받아 정확히 구분했다. 셋째, 도구 제거 실험을 통해 높은 샤플리 점수를 받은 도구를 제외하면 성능이 크게 저하되는 반면, 낮은 점수 도구를 제외해도 성능 변화가 미미함을 확인했다.

AgentSHAP은 TokenSHAP, PixelSHAP과 같은 기존 샤플리 기반 XAI 방법과 자연스럽게 연계될 수 있다. 예를 들어, 도구 수준의 중요도와 토큰 수준의 기여도를 동시에 시각화하면, “검색 도구가 제공한 문서 중 특정 문장이 최종 답변에 어떻게 영향을 미쳤는가”를 다층적으로 해석할 수 있다. 또한, 도구 선택 정책을 최적화하거나, 비용‑효율적인 에이전트 설계에 활용할 수 있는 실용적 가치를 제공한다. 한계점으로는 Monte Carlo 샘플링 수가 충분히 크지 않으면 근사 오차가 발생할 수 있고, 도구 간 상호작용이 복잡할 경우 단순 기여도 합산이 실제 원인 관계를 완전히 포착하지 못할 가능성이 있다. 향후 연구에서는 베이즈 최적화나 강화학습 기반 샘플링 전략을 도입해 효율성을 높이고, 인과 그래프와 결합해 도구 간 인과 관계를 명시적으로 모델링하는 방향이 제시된다.