다단계 함수 호출을 위한 단계별 경험 회상(SEER)
초록
SEER는 LLM이 다단계 도구 사용 시 필요한 예시를 현재 대화 흐름, 사용된 도구 체인, 사용자 의도를 동시에 고려해 정밀하게 검색하고, 성공적인 실행 기록을 지속적으로 축적해 스스로 성능을 향상시키는 자기 주도형 함수 호출 프레임워크이다. ToolQA와 τ‑bench에서 기존 방법보다 평균 6 %~23 %의 정확도 상승을 기록한다.
상세 분석
본 논문은 대형 언어 모델(LLM)이 외부 API·툴을 연속적으로 호출해야 하는 복합 작업에서 겪는 “툴 선택·파라미터 생성·툴 체인 계획”의 세 가지 핵심 문제를 해결하고자 한다. 기존 접근법은 (1) 작업별 수작업 데모 설계, (2) 사전 구축된 정적 라이브러리에서의 거친 유사도 기반 검색에 의존한다. 이러한 방식은 툴 종류가 늘어나고 과제가 복잡해질수록 프롬프트 토큰 한계와 인간 비용을 초래한다.
SEER는 세 가지 혁신적 요소를 제시한다. 첫째, **경험 풀(Experience Pool)**을 도입해 과거 성공적인 트래젝터리를 구조화된 형태 ⟨Eτ, Eq, Iτ, Uτ⟩ 로 저장한다. 여기서 Eτ는 전체 대화 임베딩, Eq는 초기 사용자 질의 임베딩, Iτ는 LLM 자체가 추론한 의도 라벨, Uτ는 사용된 툴 시퀀스(방향성을 무시한 집합)이다. 둘째, 단계별 경험 회상(Stepwise Experience Recall) 알고리즘은 현재 히스토리 Ht와 후보 트래젝터리 τ′ 사이에 세 가지 점수를 결합한다.
- Trajectory Similarity (s1): 코사인 유사도 기반 정규화 점수로, 대화 흐름의 전반적 구조를 반영한다.
- ToolChain Coverage (s2): 현재 작업에 사용된 툴 집합과 후보 트래젝터리의 교집합 비율로, 툴 체인의 재사용 가능성을 평가한다.
- Intent Match (s3): 의도 라벨이 일치하면 1, 아니면 0을 부여한다.
이 세 점수는 가중치 λ1, λ2, λ3(논문에서는 모두 1/3)로 선형 결합해 최종 점수를 산출하고, 상위 k개(기본 4개)를 인컨텍스트 예시로 제공한다. 이렇게 하면 단순 텍스트 유사도만으로는 포착하기 어려운 “툴 연쇄 패턴”과 “사용자 목표”를 동시에 고려할 수 있다.
셋째, 온라인 경험 축적(Continual Experience Accumulation) 메커니즘이다. 작업 종료 후 LLM 자체 평가기(LLM-as-a-judge)를 통해 성공 여부를 판단하고, 성공적인 트래젝터리를 경험 풀에 추가한다. 평가기는 정답과의 근사 일치를 허용하도록 설계돼, 포맷 차이나 미세 수치 오차에도 성공을 인정한다. 이 과정은 인간 라벨링 없이도 경험 풀이 지속적으로 성장하도록 만든다.
실험에서는 ToolQA(다양한 툴을 포함한 질문‑응답 벤치마크)와 τ‑bench(실제 비즈니스 도메인 두 개)에서 Qwen2.5‑7B와 Qwen2.5‑72B 모델을 사용했다. SEER는 기존 AR‑T, ExpeL, CoT‑based 방법 대비 평균 6.1% (Easy)·4.7% (Hard) 향상을 보였으며, 대형 모델에서는 정확도 23.38%까지 끌어올렸다. 특히 경험 풀이 커질수록 성능이 꾸준히 상승하는 자기 개선 효과가 뚜렷했다.
추가 실험에서는 (a) 툴 체인 커버리지 점수를 제외하면 성능이 2~3% 급락, (b) 의도 매칭을 빼면 복잡한 목표에서 오류율이 크게 증가함을 확인했다. 또한 top‑k 값을 2→8로 늘릴 경우 약간의 성능 향상이 있었지만, 토큰 제한으로 인한 효율 저하가 발생해 4가 최적점으로 제시된다.
전체적으로 SEER는 “정적 데모 → 동적, 다차원 회상 → 지속적 자기 학습”이라는 흐름을 제시함으로써, 툴 사용이 복잡한 실제 서비스 환경에서 LLM이 보다 안정적이고 확장 가능하게 동작하도록 만든다.
댓글 및 학술 토론
Loading comments...
의견 남기기