국제 도구 호출 벤치마크 ITC: 다국어 실세계 API 평가의 새로운 기준

국제 도구 호출 벤치마크 ITC: 다국어 실세계 API 평가의 새로운 기준
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 3,571개의 실제 REST API와 17,540개의 다국어 툴 호출 과제를 포함한 International Tool Calling (ITC) 데이터셋을 제시한다. 20개 카테고리·40개 국가·29개 언어에 걸친 다양성을 확보했으며, 16개 오픈소스·8개 폐쇄형 LLM을 평가해 성능 격차를 확인한다. ITC로 파인튜닝하면 특히 비영어 질의에서 정확도와 추론 일관성이 크게 향상되고, 미보유 도구에 대한 일반화·강인성도 개선된다.

상세 분석

ITC 데이터셋은 기존 벤치마크가 갖는 “시뮬레이션 API 의존”, “키 제한·재현성 부족”, “문화·지역 다양성 결여”라는 세 가지 근본적인 한계를 동시에 해결한다는 점에서 의미가 크다. 먼저, RapidAPI, Juhe Data 등 5개 글로벌·지역 소스를 통해 49,937개의 실시간 REST API를 수집하고, 자동·수동 검증 과정을 거쳐 3,571개의 안정적인 엔드포인트만을 최종 선정했다. 이는 전체 후보의 7%에 해당하지만, 매주 실행되는 모니터링 스크립트로 응답 오류·비JSON 반환을 지속적으로 걸러낸 결과이다.

다음으로, 툴 호출 과제는 단일 호출, 반복 호출, 병렬 호출, 중첩 호출 네 가지 유형으로 구분하고, 36개의 고품질 시드 예시를 기반으로 GPT‑4o가 44,198개의 후보 질의를 생성한다. 이후 Claude‑3.5‑Sonnet과 Gemini‑1.5‑Pro가 5가지 평가 차원(관련성, 실용성, 언어 적용성, 명료성, 구체성)에서 1‑5 점을 매겨 58.4%를 삭제하고, 인간 어노테이터의 100명 규모 검증을 통해 최종 17,540개의 QA 쌍을 확정한다. 여기서 Fleiss’ κ=0.68이라는 중간 수준의 일치도를 확보했으며, 금표준 질문을 삽입해 품질을 지속적으로 모니터링했다.

답변 생성 단계에서는 GPT‑4o, Gemini‑1.5‑Pro, Claude‑3.5‑Sonnet 세 모델이 독립적으로 후보 답변을 만든 뒤, 서로의 평가를 통해 일관성·합리성·언어 품질을 점검한다. 최종 선택은 인간 전문가가 수행해 모델 특유의 환각을 최소화했다. 이러한 삼중 모델·인간 검증 파이프라인은 기존 단일 LLM 생성 방식보다 오류 전파를 크게 억제한다.

실험 결과, 16개 오픈소스 LLM과 8개 폐쇄형 LLM을 ITC 테스트셋(1,750개 과제)에서 평가했을 때, 폐쇄형 모델이 평균 12.4%p 높은 정확도를 보였으며, 특히 “존재하지 않는 도구 호출”이나 “파라미터 누락” 같은 오류 유형에서 격차가 두드러졌다. 파인튜닝 실험에서는 전체 정확도가 9.7%p 상승했으며, 비영어(특히 일본어·스페인어·아랍어) 질의에서 15%p 이상의 개선을 기록했다. 또한, 파인튜닝된 모델은 ITC 외부의 APIBench와 ToolBench 같은 기존 벤치마크에서도 도구 선택 정확도와 호출 성공률이 각각 6.3%p·8.1%p 상승했다. 이는 ITC가 단순 평가용 데이터셋을 넘어, 다국어·다지역 환경에서 LLM의 일반화 능력을 강화하는 효과적인 파인튜닝 자원임을 시사한다.

마지막으로, 저자들은 데이터셋 공개와 함께 자동화된 API 모니터링 스크립트, 질의·답변 생성 프롬프트 템플릿, 평가 메트릭을 오픈소스로 제공해 재현성을 높였다. 다만, 현재는 HTTP 기반 REST API에 국한되고, 멀티모달(이미지·음성) 도구는 포함되지 않아 향후 확장이 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기