다양성으로 확장하는 코드 에이전트 학습
초록
TDScaling은 도구 사용 궤적의 양이 아니라 다양성에 초점을 맞춘 데이터 합성 프레임워크이다. 비즈니스 클러스터 기반 샘플링, 청사진‑구동 멀티에이전트 합성, 엔트로피·복잡도 기반 적응 진화, 그리고 샌드박스 코드 도구를 결합해 제한된 예산 하에서도 도구 사용 일반화와 내재된 코딩 능력을 동시에 향상시킨다. 실험 결과 BFCL·τ²‑Bench·RebenchT·CodeCI·BIRD 등에서 양적 확장보다 높은 효율과 성능 상한을 달성한다.
상세 분석
본 논문은 기존 코드 LLM이 도구와 상호작용하는 에이전트로 전환되는 과정에서, 단순히 데이터 양을 늘리는 “양적 스케일링”이 빠르게 포화점에 도달한다는 문제점을 지적한다. 특히 MCP(Model Context Protocol) 환경에서는 새로운 서비스와 API가 지속적으로 추가되며, 낮은 엔트로피의 반복적인 트래젝터리만으로는 장기적인 일반화가 어렵다. 이를 해결하기 위해 저자들은 “다양성 스케일링(Trajectory Diversity Scaling, TDScaling)”이라는 새로운 패러다임을 제안한다.
첫 번째 핵심은 비즈니스 클러스터(Business Cluster) 메커니즘이다. MCP 서버를 서비스 논리 단위인 클러스터로 묶고, 각 클러스터가 제공하는 기능 클래스를 최대한 포괄하도록 그리디 알고리즘으로 샘플링한다. 이는 무작위 샘플링이 초래하는 중복과 의미적 빈틈을 최소화하고, 실제 서비스 간 의존 관계를 학습에 반영한다.
두 번째는 청사진‑구동 멀티에이전트 파이프라인이다. 선택된 클러스터에 대해 BlueprintAgent가 목표(g), 실행 계획(P), 제약(C), 전략 프로파일(Ψ) 등을 포함한 시나리오 청사진을 생성한다. 이후 UserAgent, AssistantAgent, ObservationAgent 등이 역할을 분담해 청사진을 실제 트래젝터리로 전환한다. 특히 ObservationAgent는 동적 스키마 락킹을 적용해 동일 도구에 대한 스키마 일관성을 유지함으로써 “구조적 환각”을 방지한다.
세 번째 혁신은 다양성 지표 기반 적응 진화이다. 저자는 도메인 엔트로피(H_dom), 추론 모드 엔트로피(H_mode), 누적 행동 복잡도(CAC)라는 세 가지 정량적 메트릭을 정의한다. 도메인 엔트로피는 클러스터별 사용 비율을 기반으로 다양성을 측정하고, 추론 모드 엔트로피는 트래젝터리 내에서 발견되는 다양한 추론 패턴(예: 가설‑검증, 재귀‑수정 등)의 분포를 평가한다. CAC는 툴 전환 비용과 인자 계층 깊이를 곱해 행동의 인지적 난이도를 정량화한다. 이 메트릭들을 최대화하도록 글로벌 메모리(G)를 업데이트함으로써, 시스템은 자동으로 장기 미사용 영역(롱테일)과 고복잡도 시나리오를 탐색한다.
마지막으로 샌드박스 코드 툴을 정규화자로 도입한다. BlueprintAgent가 표준 툴만으로는 해결할 수 없는 복합 로직을 감지하면, 격리된 파이썬 인터프리터를 호출해 정확한 연산을 수행한다. 이는 두 가지 효과를 만든다. 첫째, 프로그램‑오브‑씽크(Program‑of‑Thought) 방식으로 복잡한 데이터 처리를 가능하게 하여 트래젝터리의 성공률을 크게 높인다. 둘째, 코드 생성 능력이 툴 튜닝 과정에서 소멸되는 현상(카타스트로픽 포깃팅)을 완화한다.
실험에서는 BFCL·τ²‑Bench와 같은 일반 툴 사용 벤치마크와 RebenchT·CodeCI·BIRD와 같은 코드 에이전트 전용 태스크에서 TDScaling이 기존 양적 스케일링 대비 동일 예산에서 10%~25% 이상의 성능 향상을 기록했다. 특히 Qwen3‑Coder‑30B‑A3B 모델에 적용했을 때, 480B 규모 모델과 맞먹는 결과를 얻어 “다양성 스케일링이 성능 상한을 크게 끌어올린다”는 결론을 도출한다.
전반적으로 본 논문은 데이터 양이 아닌 다양성을 핵심 자원으로 삼아, 제한된 학습 예산 하에서도 코드 에이전트의 도구 사용 일반화와 코딩 능력을 동시에 향상시킬 수 있음을 실증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기