경험 재활용으로 툴 사용자에서 툴 제작자로 진화하는 무훈련 멀티모달 추론 프레임워크

경험 재활용으로 툴 사용자에서 툴 제작자로 진화하는 무훈련 멀티모달 추론 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM 기반 툴 통합 추론(TIR) 모델이 고정된 도구에 의존하는 한계를 극복하고, 추론 과정에서 얻은 경험을 자동으로 수집·정제해 재사용 가능한 툴 라이브러리를 구축하는 무훈련 프레임워크 UCT를 제안한다. 온라인 작업 루프, 온라인 툴 생성 루프, 오프라인 메모리 통합 모듈로 구성된 UCT는 추론 중 툴이 없을 경우 즉시 생성하고, 생성된 툴을 검증·평가한 뒤 지속적으로 라이브러리에 축적한다. 실험 결과, 수학·과학·VQA 등 다중 도메인 벤치마크에서 기존 TIR 모델 대비 20% 이상 성능 향상을 달성하며, 툴 자체가 스스로 진화한다는 자기 최적화 능력을 입증한다.

상세 분석

UCT는 기존 TIR 모델이 “툴 사용자”에 머무르는 구조적 한계를 근본적으로 재구성한다. 핵심 아이디어는 LLM이 문제 해결 과정에서 생성하는 사고 흐름(Chain‑of‑Thought)과 툴 호출 기록을 ‘경험’으로 간주하고, 이를 자동으로 추출·정제해 재사용 가능한 툴 자산으로 전환한다는 점이다. 이를 위해 세 가지 모듈을 설계하였다. 첫째, Online Task Loop은 ReAct 패러다임을 기반으로 생각(thought), 툴 호출(tool call), 툴 생성(request) 행동을 동시 고려한다. 모델은 현재 히스토리와 관찰(observation)을 입력받아 다음 행동을 확률적으로 선택하고, 툴 호출이 실패하거나 라이브러리에 존재하지 않을 경우 즉시 Build Ticket을 발행한다. 둘째, Online Build Loop은 별도 샌드박스 환경에서 툴 코드를 생성·테스트·비평하는 파이프라인을 제공한다. 코드 생성 후 자동 테스트를 수행하고, 실패 시 코드 리뷰 모델(critic)로부터 피드백을 받아 반복적으로 개선한다. 이 과정은 툴의 실행 안정성을 보장하면서도, 툴이 단일 인스턴스에 머무르지 않도록 ‘품질 검증’이라는 구조적 제약을 부여한다. 셋째, Offline Memory Consolidation은 구축된 툴들을 주기적으로 통합·분류·정제한다. 사용 로그와 성능 메트릭을 기반으로 중복 툴을 병합하고, 활용 빈도가 낮은 툴은 폐기하거나 재학습용 샘플로 전환한다. 이렇게 형성된 툴 라이브러리는 다음 추론 단계에서 즉시 검색·재사용 가능하며, 도메인 전이 효과를 기대할 수 있다.
기술적 기여는 크게 두 축으로 나뉜다. (1) Training‑Free 경험 재활용: 별도의 파인튜닝 없이 추론 과정에서 얻은 데이터만으로 툴을 생성·업데이트한다는 점에서 비용 효율성이 뛰어나다. (2) Self‑Evolving Tool Library: 툴이 생성·검증·통합되는 전체 사이클이 자동화돼, 에이전트 자체가 지속적으로 능력을 확장한다. 실험에서는 959개의 다양한 툴 사용 문제(TRBench)와 기존 수학·과학·VQA 베이스라인을 대상으로, UCT가 평균 +21%~+23%의 정확도 향상을 기록했다. 특히, 복잡한 다중 단계 계산이나 이미지 기반 추론에서 기존 CoT·ReAct 대비 오류 전파를 크게 억제했다. 한계점으로는 현재 툴 생성이 주로 파이썬 코드에 국한돼 있어, 비코드형(예: API 호출, 데이터베이스 질의) 툴에 대한 확장성이 부족하고, 샌드박스 환경의 보안·자원 관리가 추가 비용을 초래한다는 점을 들 수 있다. 향후 연구에서는 멀티모달 툴(예: 이미지 변환, 시뮬레이션)과 더 복잡한 실행 환경을 지원하도록 프레임워크를 일반화하고, 메타‑리인포스먼트 학습과 결합해 툴 생성 정책을 더욱 최적화할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기