동적 도구 선택과 통합을 통한 에이전트 추론 강화
초록
AutoTool은 고정된 도구 집합에 의존하던 기존 LLM 에이전트의 한계를 넘어, 1,000개 이상의 도구와 100여 개의 작업을 아우르는 20만 개의 툴‑선택 데이터셋을 구축한다. 두 단계의 학습 파이프라인(지도‑강화 학습 기반 궤적 안정화와 KL‑정규화된 Plackett‑Luce 순위 학습)으로 도구 선택을 동적으로 최적화하고, Qwen3‑8B와 Qwen2.5‑VL‑7B 모델에 적용해 수학·과학, 검색 기반 QA, 코드 생성, 멀티모달 이해 등 10개 벤치마크에서 평균 5‑8% 수준의 성능 향상을 달성한다. 특히 보지 못한 새로운 도구를 추론 단계에서 활용할 수 있어 일반화 능력이 크게 개선되었다.
상세 분석
AutoTool 논문은 크게 네 가지 핵심 기여로 요약할 수 있다. 첫째, “동적 도구 선택 데이터셋”을 구축했다는 점이다. 기존 연구들은 고정된 도구 세트를 전제로 툴 호출을 학습했지만, 저자들은 1,000개가 넘는 다양한 도구(코드 실행, 웹 검색, 이미지 처리 등)를 메타데이터와 함께 수집하고, 각 작업에 맞는 도구 선택 근거를 명시적으로 생성했다. 이를 위해 DeepSeek‑R1을 활용해 도구 선택 이유를 생성하고, LLM‑as‑a‑judge로 품질을 검증한 뒤, CoT와 도구 호출을 교차 삽입해 200k개의 완전한 추론‑도구 궤적을 만든다.
둘째, “이중‑단계 최적화 파이프라인”이다. Phase I에서는 전통적인 SFT와 RL‑PPO 기반 정책 최적화를 통해 긴 체인‑오브‑생각(Chain‑of‑Thought) 흐름을 안정화한다. 여기서 핵심은 툴 호출 전후의 내부 reasoning과 integration 단계가 끊김 없이 이어지도록 하는 것이다. Phase II에서는 툴 선택 자체를 Plackett‑Luce(PL) 순위 모델로 재구성한다. 각 선택 단계에서 후보 도구들의 임베딩을 거리 기반 소프트맥스에 매핑하고, KL‑정규화된 교차 엔트로피 손실을 최소화함으로써 “선호도”를 학습한다. 이 접근은 툴 집합이 확장되거나 새로운 도구가 추가될 때도 기존 파라미터를 크게 수정하지 않고 순위만 업데이트하면 된다는 장점을 제공한다.
셋째, “툴 임베딩 기반 선택 메커니즘”이다. 도구의 메타데이터를 LLM 내부 임베딩 레이어에 투사해 툴 임베딩 E_T를 만든 뒤, 선택 단계에서 모델이 생성한 임베딩 e′_i와의 유클리드 거리를 기반으로 확률을 산출한다. 이는 전통적인 토큰‑레벨 분류와 달리 연속적인 의미 공간에서 가장 적합한 도구를 찾게 해, 새로운 도구가 추가될 때도 임베딩만 삽입하면 자연스럽게 후보에 포함된다.
넷째, 실험 결과는 AutoTool이 파라미터가 더 작은 Qwen3‑8B와 Qwen2.5‑VL‑7B에서도 최신 에이전트(예: ReAct, Reflexion 등)와 툴‑통합 프레임워크(예: Toolformer, ReAct‑FT)보다 일관되게 우수함을 보여준다. 특히 수학·과학 추론에서 평균 6.4% 향상, 검색 기반 QA에서 4.5%, 코드 생성에서 7.7%, 멀티모달 이해에서 6.9%의 절대적 성능 상승을 기록했다. 또한 “보지 못한 도구” 실험에서, 사전 학습에 포함되지 않은 도구를 추론 중에 동적으로 선택해 문제 해결에 성공함으로써 일반화 능력을 입증했다.
이러한 설계는 LLM 에이전트가 실제 서비스 환경에서 지속적으로 업데이트되는 API·툴 생태계에 적응하도록 하는 실용적인 로드맵을 제시한다. 다만 현재는 툴 메타데이터가 비교적 정형화된 경우에 한정되며, 복잡한 인증·요금 정책을 가진 상업용 API와의 연동에서는 추가적인 안전성·프라이버시 고려가 필요하다. 또한 PL 순위 학습이 툴 간 상호 의존성을 충분히 모델링하지 못할 가능성이 있어, 향후 그래프 기반 의존성 모델링과 결합하는 연구가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기