결과‑인식 툴 선택(OATS)으로 지연 없는 라우터 성능 극대화

OATS는 툴 임베딩을 성공·실패 로그의 중심점으로 오프라인 보정해 라우터의 선택 정확도를 크게 높이며, 서비스 시 추가 파라미터·GPU·지연이 전혀 발생하지 않는다. MetaTool에서는 NDCG@5가 0.869→0.940, ToolBench에서는 0.834→0.848로 향상된다. 데이터가 충분히 풍부할 때만 소규모 MLP 재랭크와 197K 파라미터 대비 어댑터를 추가해도 유의미한 이득을 얻는다.

저자: Huamin Chen, Xunzhuo Liu, Junchen Jiang

결과‑인식 툴 선택(OATS)으로 지연 없는 라우터 성능 극대화
본 논문은 LLM 서빙 게이트웨이에서 “semantic router”가 수행하는 툴 선택이 전체 시스템 지연에 미치는 영향을 분석하고, 지연 제한(Latency ≤ 5‑10 ms) 하에서 정확도를 크게 향상시킬 수 있는 새로운 방법론인 Outcome‑Aware Tool Selection(OATS)를 제안한다. 기존 프로덕션 라우터는 툴 설명을 한 번 임베딩한 뒤 쿼리 임베딩과의 코사인 유사도로 상위 K개를 선택하는 정적 매칭 방식을 사용한다. 이 방식은 지연은 만족하지만, (1) 툴 설명이 부실하거나 마케팅용 텍스트일 경우 의미적 매칭이 실패하고, (2) 실제 사용 결과(성공/실패) 피드백을 반영하지 못한다는 한계가 있다. OATS는 이러한 한계를 극복하기 위해 툴 임베딩을 오프라인 로그 기반으로 보정한다. 구체적으로, 로그에서 (쿼리 q, 툴 t, 결과 o∈{0,1}) 삼중항을 수집하고, 각 툴 t에 대해 양성 쿼리 집합 Q⁺ₜ와 음성 쿼리 집합 Q⁻ₜ를 만든다. 양성 집합의 평균 임베딩 \(\bar e^+\)와 음성 집합의 평균 임베딩 \(\bar e^-\)를 구한 뒤, 원래 툴 임베딩 \(e(d_t)\)를 다음 식으로 이동시킨다. \

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기