예산 제한 에이전트 LLM을 위한 의도 기반 비용 효율적 도구 사용 계획

예산 제한 에이전트 LLM을 위한 의도 기반 비용 효율적 도구 사용 계획
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 제한된 금전적 예산 하에서 외부 도구를 호출해야 하는 대형 언어 모델(LLM) 에이전트를 위한 새로운 추론‑시간 계획 프레임워크 INTENT를 제안한다. 의도‑기반 계층형 세계 모델을 활용해 미래 도구 사용과 비용을 예측하고, Monte Carlo 기반의 비용 추정과 위험 보정을 통해 예산 초과 없이 과업 성공률을 크게 향상시킨다. 실험은 비용이 부과된 StableToolBench에서 수행되었으며, INTENT는 하드 예산 제약을 엄격히 만족하면서 기존 베이스라인 대비 높은 성공률을 기록한다.

상세 분석

INTENT는 예산 제약이 있는 도구 사용 문제를 “컨텍스트 공간에서의 순차적 의사결정”으로 공식화하고, 이를 직접 최적화하기 어려운 고차원·고불확실성 환경으로 정의한다. 기존 접근법(온라인 배낭 문제, 강화학습 기반 정책, 전통적 MCTS)은 각각 도구 간의 순차적 의존성 무시, 재학습 비용, 그리고 무한히 큰 행동 공간·비용이 높은 시뮬레이션이라는 한계를 가진다. INTENT는 이러한 한계를 극복하기 위해 두 가지 핵심 아이디어를 도입한다. 첫째, “의도‑분해”를 통해 도구 호출을 ‘의도(semantic intention)’와 ‘구체적 출력(content)’으로 구분한다. 이는 동일한 의도를 만족하는 다양한 출력이 존재할 때, 비용 추정에 필요한 불확실성을 크게 감소시킨다. 둘째, 학습된 언어 기반 세계 모델(Wϕ)을 이용해 단일 트랙의 Monte Carlo 롤아웃을 수행한다. 이 롤아웃은 현재 히스토리와 남은 예산을 입력으로 받아, 미래에 발생할 도구 호출 시퀀스와 총 비용을 시뮬레이션한다. 시뮬레이션 결과가 남은 예산을 초과하면, INTENT는 “예산 위반 피드백”을 에이전트에게 전달하고, 에이전트는 새로운 추론(r′t)과 행동(a′t)을 생성한다. 비용 추정의 변동성을 줄이기 위해 다중 샘플 평균이 아닌, 의도‑기반 확률 분해를 적용해 비용 기대값을 보다 안정적으로 계산한다.

이 설계는 다음과 같은 장점을 제공한다. (1) 추론‑시간 경량성: 세계 모델은 전체 트리 탐색이 아니라 단일 롤아웃만 수행하므로 지연이 최소화된다. (2) 예산 강제성: 하드 예산 제약을 만족하도록 설계된 인터셉트 메커니즘은 실제 도구 호출 전에 비용 초과를 차단한다. (3) 동적 시장 적응: 도구 가격이나 가용성이 변해도 세계 모델은 텍스트 시리얼라이즈된 도구 사양을 입력으로 받아 즉시 새로운 가격 정보를 반영한다. (4) 스케일러블: 사전 학습된 LLM 파라미터를 수정하지 않으며, 세계 모델만 별도 학습하면 되므로 기존 강력한 LLM(예: GPT‑4.1, GPT‑5)과 바로 결합 가능하다.

실험에서는 비용이 부과된 StableToolBench에 5가지 예산 수준과 3가지 시장 변동 시나리오(가격 상승, 가격 하락, 신규 도구 등장)를 적용하였다. 결과는 INTENT가 예산 초과 비율을 0%에 가깝게 유지하면서, 베이스라인(프롬프트 기반 비용 피드백, 단순 비용 제한 정책) 대비 평균 성공률을 12~18%p 향상시켰음을 보여준다. 또한, 예산이 매우 제한된 상황에서도 INTENT는 비용 효율적인 저가 도구를 우선 사용하고, 필요 시 고가 도구를 전략적으로 배치해 전체 과업을 완수한다. 이러한 성능은 “예산 상한선에 근접한 실현 가능한 상한(achievable upper bound)”에 근접함을 의미한다.

한계점으로는 세계 모델이 실제 도구의 정확한 반환값을 완벽히 재현하지 못할 수 있다는 점이며, 특히 실시간 금융 데이터와 같이 급변하는 외부 정보에 대해서는 시뮬레이션 오차가 누적될 가능성이 있다. 또한, 의도‑분해가 효과적으로 작동하려면 사전 정의된 의도 라벨링이 충분히 풍부해야 하는데, 복잡한 멀티모달 작업에서는 의도 정의가 어려울 수 있다. 향후 연구에서는 (1) 불확실성 정량화를 위한 베이지안 세계 모델, (2) 의도 자동 추출 및 계층화, (3) 실제 비용이 부과되는 클라우드 환경에서의 온라인 평가 등을 통해 시스템의 견고성을 더욱 강화할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기