경험을 기술로 전환하는 Trace2Skill

본 논문은 대형 언어 모델(LLM) 기반 에이전트가 복잡한 작업을 수행할 때 필요한 도메인‑특화 스킬을 자동으로 생성·보강하는 프레임워크 ‘Trace2Skill’을 소개한다. 기존의 수동 스킬 저작은 인력·시간 비용이 크게 소요되어 확장성이 떨어지고, 자동 생성 방법은 파라미터 수준의 얕은 지식에 의존하거나 순차적인 온라인 업데이트 방식으로 인해 스킬이 파편화되고 일반화가 어려운 문제점을 가지고 있었다. 이러한 문제를 해결하고자 저자들은 인간 전문가가 도메인 지식을 종합해 하나의 포괄적인 스킬을 작성하는 방식을 모방한 시스템을 설계하였다. Trace2Skill은 세 단계로 구성된다. 첫 번째 단계인 ‘궤적 생성’에서는 초기 스킬 S₀(인간이 작성했거나 LLM이 초안으로 만든)와 함께 에이전트 πθ가 병렬로 작업을 수행해 성공·실패 궤적 집합 T⁺, T⁻ 를 만든다. 이 과정은 완전 병렬화가 가능해 대규모 궤적을 짧은 시간 안에 수집할 수 있다. 두 번째 단계인 ‘병렬 다중‑에이전트 패치 제안’에서는 각 궤적마다 독립적인 서브‑에이전트가 할당된다. 성공 궤적에 대해서는 Success Analyst(A⁺)가 단일 패스 방식으로 일반화 가능한 행동 패턴을 추출하고, 실패 궤적에 대해서는 Error Analyst(A⁻)가 ReAct‑스타일 다중 턴 루프를 통해 원인 분석을 수행한다. A⁻는 원인 규명이 성공하거나 턴 제한에 도달할 때까지 반복하며, 원인 분석이 불충분한 경우 해당 궤적을 배제한다. 이렇게 도출된 각 패치 pᵢ는 초기 스킬을 복제한 상태에서 작업하므로 서로의 수정안을 보지 못해 다양성을 유지한다. 세 번째 단계인 ‘충돌‑없는 패치 통합’에서는 전체 패치 풀 P를 계층적 병합 연산 M을 통해 하나의 통합 패치 p* 로 축소한다. 병합 과정에서는 동일 파일·라인에 대한 중복·충돌을 자동 검출하고, 반복적으로 등장하는 패턴을 우선시해 전반적인 일반화 능력을 강화한다. 특히 M은 동일 LLM(πθ)을 재사용함으로써 파이프라인 전체가 하나의 자기‑컨테인드 모델 안에서 경험 수집·분석·증류를 수행한다는 점이 독특하다. 최종적으로 얻어진 스킬 S*는 파라미터 업데이트 없이 바로 에이전트에 적용 가능하다. 실험에서는 스프레드시트, VisionQA, 수학 추론 등 세 가지 도메인에서 Trace2Skill의 효과를 검증하였다. 스프레드시트 벤치마크(SpreadsheetBench‑Verified)에서는 기존 Anthropic 공식 xlsx 스킬 대비 평균 12.4%p(절대) 향상을 기록했으며, 특히 Qwen3.5‑35B가 자체 궤적로 만든 스킬이 Qwen3.5‑122B 에이전트의 WikiTableQuestions 정확도를 57.65%p까지 끌어올렸다. 이는 작은 모델이 만든 스킬이 큰 모델에 그대로 전이될 수 있음을 보여준다. OOD 테스트에서도 생성된 스킬이 새로운 도메인(예: WikiTable QA)에서 높은 성능을 유지함을 확인하였다. 비교 실험에서는 (1) 전통적인 경험 은행(Reasoning Bank) 방식, (2) 순차적 온라인 스킬 업데이트, (3) 다중 스킬 파편화 전략을 각각 평가했으며, Trace2Skill이 모든 경우에서 우수함을 입증했다. 특히 오류 분석을 LLM‑only 단일 호출이 아닌 다중 턴 에이전트 루프로 수행했을 때, 패치 품질이 크게 향상되는 점이 강조된다. 결론적으로 Trace2Skill은 (1) 인간 전문가의 스킬 저작 과정을 모방한 전반적·병렬적 학습, (2) 선언형 스킬을 통해 파라미터 업데이트 없이 전이 가능, (3) 작은 오픈소스 모델만으로도 고품질 스킬을 생성·보강할 수 있다는 세 가지 핵심 기여를 제공한다. 향후 연구에서는 자동화된 스킬 검증·테스트 프레임워크와 멀티‑모달 도메인(예: 코드·시뮬레이션)으로의 확장을 제안한다.

경험을 기술로 전환하는 Trace2Skill

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기