다중필드 기반 툴 검색: LLM을 위한 정밀 도구 매칭 프레임워크
초록
본 논문은 대규모 언어 모델(LLM)이 제한된 컨텍스트 창과 연산 비용을 극복하고 외부 툴을 효율적으로 활용하도록 돕는 ‘다중필드 툴 검색(MFTR)’ 방법을 제안한다. 툴 문서의 구조적 불완전성, 질의와 문서 간 의미·세분성 격차, 그리고 툴 유용성의 다면성(기능·입력 제약·출력 형식 등)이라는 세 가지 핵심 문제를 식별하고, 툴 문서를 표준화된 네 개의 필드(설명, 파라미터, 응답, 예시)로 정형화한다. 질의를 다중필드에 맞게 재작성하고, 각 필드별 유사도를 독립적으로 계산한 뒤 가중합을 통해 최종 점수를 산출한다. 다양한 공개 데이터셋과 혼합 벤치마크에서 기존 최첨단 방법들을 크게 능가함을 실험적으로 입증한다.
상세 분석
본 연구는 LLM 기반 에이전트가 외부 툴을 활용할 때 직면하는 근본적인 세 가지 한계를 체계적으로 분석한다. 첫째, 툴 문서는 출처와 형식에 따라 구조가 크게 달라 완전하지 않으며, 동일한 개념이 서로 다른 용어로 표기되는 경우가 빈번하다. 이는 전통적인 텍스트 매칭 기반 검색 모델이 일관된 의미 공간을 구축하기 어렵게 만든다. 둘째, 사용자 질의는 일반적으로 고수준의 목표를 서술하고 복합적인 작업 흐름을 포함하지만, 툴 문서는 구체적인 API 호출 방식과 파라미터 정의 등 저수준 세부 정보를 제공한다. 이로 인해 의미적· granularity 격차가 발생해 단순 텍스트 유사도만으로는 적절한 툴을 찾기 힘들다. 셋째, 툴의 실제 유용성은 기능적 적합성 외에도 입력 제약, 출력 포맷, 사용 시나리오 등 다중 측면을 고려해야 한다. 기존 연구는 전체 문서를 하나의 단위로 취급해 이러한 다면성을 반영하지 못한다는 점을 지적한다.
MFTR은 이러한 문제를 해결하기 위해 툴 문서를 ‘설명’, ‘파라미터’, ‘응답’, ‘예시’ 네 개의 필드로 정형화한다. 이때 LLM 기반 프롬프트 엔지니어링을 활용해 원시 문서에서 누락된 정보를 추론하고, 일관된 스키마로 변환한다. 특히 파라미터 필드에서는 각 인자의 이름, 타입, 의미, 필수 여부를 명시함으로써 입력 제약을 명확히 하고, 응답 필드에서는 출력 내용과 행동을 자연어로 기술해 형식적 제약을 완화한다.
질의 측면에서는 기존의 자유형 텍스트를 동일한 스키마에 맞는 구조화된 형태로 재작성한다. 예를 들어 “내일 뉴욕으로 가는 가장 저렴한 항공편을 찾아줘”라는 질의는 ‘목적(항공편 검색)’, ‘출발지/도착지’, ‘날짜’, ‘가격 최적화’ 등으로 분해되어 각 필드와 매핑된다. 이렇게 재작성된 질의는 각 툴 필드와 독립적으로 매칭되어, 의미적 일치뿐 아니라 기능적 적합성까지 동시에 평가된다.
각 필드별 매칭 점수는 별도의 의미 매처(예: dense retriever, cross‑encoder)를 사용해 계산하고, 적응형 가중치 메커니즘을 통해 필드 중요도를 동적으로 학습한다. 이는 특정 질의에서는 ‘파라미터’가, 다른 경우에는 ‘예시’가 더 큰 영향을 미칠 수 있음을 반영한다. 최종 점수는 가중합 형태로 결합되어 툴 순위가 결정된다.
실험에서는 Gorilla, APIBank, APIGen 등 다섯 개의 공개 툴 검색 데이터셋과 이들을 혼합한 대규모 벤치마크를 구축해 MFTR을 평가한다. 베이스라인으로는 BM25, Contriever, BGE‑Large 등 최신 dense retriever와 툴 특화 모델(ToolDE, COLT 등)을 사용했으며, MFTR은 NDCG@10, MAP 등 모든 지표에서 평균 8~12%p 이상의 향상을 기록했다. 특히 필드 마스킹 실험을 통해 각 필드가 데이터셋마다 다른 기여도를 보이며, 전체 문서를 단일 텍스트로 처리하는 기존 방식보다 현저히 우수함을 입증한다.
전반적으로 MFTR은 툴 문서의 구조적 이질성을 해소하고, 질의‑툴 간 다중 측면 정렬을 구현함으로써 LLM 기반 에이전트가 대규모 툴 저장소에서 적절한 도구를 빠르고 정확하게 선택하도록 지원한다. 이는 향후 툴‑증강형 LLM 시스템의 확장성과 실용성을 크게 높일 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기