생각을 더한 함수 호출 파라미터 정확도 향상을 위한 내재형 추론
초록
본 논문은 LLM이 외부 함수를 호출할 때 파라미터를 생성하는 과정에 “think” 라는 추론 파라미터를 삽입해, 함수 수준·파라미터 수준의 명시적 사고 흐름을 제공한다. 복잡도 점수에 따라 자동으로 세부 추론을 유도하고, 설명 최적화와 정렬 손실을 통해 인간 기대에 부합하도록 조정한다. ToolBench 실험에서 모든 모델 규모와 종류에 걸쳐 파라미터 정확도와 추론 일관성이 크게 개선되었으며, 기존 API와 완전 호환된다.
상세 분석
TAFC(Think‑Augmented Function Calling)의 핵심 아이디어는 함수 시그니처에 선택적 “think” 파라미터를 추가함으로써, LLM이 실제 실행 전에 내부 reasoning trace를 생성하도록 강제하는 것이다. 수식 (1)‑(2)에서 보듯이, think 파라미터는 함수 호출 결과에 영향을 주지 않으며, 오히려 파라미터값 P를 조건부 확률 P(P,think|x,C)=P(think|x,C)·P(P|x,C,think) 로 분해한다. 이는 “추론 → 파라미터 결정”이라는 인과 흐름을 명시화해, 모델이 복잡한 상호 의존 파라미터를 생성할 때 논리적 근거를 제공하도록 만든다.
파라미터‑레벨 추론을 위해 저자들은 각 파라미터 p_i에 대해 복잡도 스코어 ψ(p_i)=σ(α₁·dep+α₂·type+α₃·constraint) 를 정의하고, 임계값 τ(=0.6) 를 초과하면 think_i 라는 세부 추론 토큰을 생성한다. 이렇게 하면 데이터베이스 질의와 같이 테이블 선택, 필터 조건 등 서로 다른 의미를 갖는 파라미터에 대해 독립적인 이유를 제시할 수 있다. 마코프 가정 하에 전체 파라미터 시퀀스의 확률은 (5) 식으로 전개되며, 이는 기존의 일괄 파라미터 생성보다 더 세밀한 의존 관계 모델링을 가능하게 한다.
TAFC는 두 단계의 최적화 메커니즘을 도입한다. 첫 번째는 think 파라미터 설명 자체를 메타‑LLM 혹은 연속 프롬프트 임베딩 H_think 으로 튜닝해, 파라미터 정확도를 직접 최대화한다(식 6‑8). 두 번째는 전체 툴 설명을 정렬 손실 L_align=λ₁L_sem+λ₂L_logic+λ₃L_action 으로 미세조정한다. 여기서 L_sem 은 생성된 추론과 인간 주석 간 코사인 유사도, L_logic 은 추론의 로그우도, L_action 은 파라미터 정답률과 추론 L2 차이를 결합한다. 이러한 다중 목표 최적화는 추론의 의미적 일관성, 논리적 타당성, 실행 정확성을 동시에 향상시킨다.
실험에서는 ToolBench(16k+ API) 상의 세 가지 프롬프트 유형(I1‑Inst, I2‑Inst, I3‑Inst)을 사용해 GPT‑4o, Claude‑3.5‑Sonnet 등 최신 모델과 Qwen2.5, Llama‑3.1 계열 오픈소스 모델을 평가했다. 결과는 모든 모델에서 Pass Rate와 Win Rate가 평균 1.6‑2.5%p, 2.1‑2.5%p 상승했으며, 특히 7‑8B 규모의 소형 모델에서 2.4‑2.5%p, 2.9‑3.1%p의 큰 폭의 개선을 보였다. 파라미터 품질 평가에서는 LLM‑as‑judge가 TAFC가 생성한 파라미터가 62‑76% 비율로 우수함을 확인했으며, 복잡한 다중 툴 시나리오(I3‑Inst)에서 특히 큰 이득을 얻었다.
TAFC의 장점은 (1) 기존 LLM 아키텍처를 그대로 사용하면서 API 호환성을 유지한다는 점, (2) 복잡도 기반 자동 추론 트리거가 과도한 추론을 방지하고 효율성을 보장한다는 점, (3) 메타‑프롬프트와 연속 임베딩을 통한 설명 최적화가 모델‑특정 튜닝 없이도 성능을 끌어올린다는 점이다. 한계로는 복잡도 스코어링에 사용되는 α 파라미터와 τ 임계값이 도메인에 따라 재조정이 필요할 수 있으며, 추론 텍스트가 과도하게 길어질 경우 토큰 비용이 증가한다는 점을 들 수 있다. 전반적으로 TAFC는 함수 호출 시 “왜 이 값을 선택했는가”라는 질문에 직접 답변을 제공함으로써, 디버깅·감시·신뢰성 확보에 큰 도움이 되는 실용적인 프레임워크라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기