툴 통합 추론으로 확장된 에이전트 스케일링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 도구 사용 능력을 강화하기 위해, 상호작용이 풍부한 소수의 시연 데이터를 활용한 ‘Cold‑Start SFT’ 전략을 제안한다. 이를 기반으로 RL 단계에서 장기 다중턴 툴 사용을 유지하도록 설계한 ASTER 프레임워크는 4 B 파라미터 모델이 AIME 2025에서 90 % 이상의 정확도를 달성하는 등, 기존 대규모 모델을 능가하는 성능을 보여준다.

상세 분석

ASTER 논문은 최근 LLM에 강화학습(RL)을 적용해 장기 추론을 유도하는 흐름에, 툴 통합 추론(TIR) 확장 시 발생하는 ‘상호작용 붕괴(interaction collapse)’ 문제를 정확히 짚어낸다. 상호작용 붕괴란 모델이 다중턴 툴 호출을 지속하지 못하고, 내부 텍스트 추론에만 의존해 사후 검증 수준으로 전락하는 현상을 말한다. 저자들은 이 현상이 크게 두 가지 원인에서 비롯된다고 본다. 첫째, 초기화 단계에서 툴 사용을 거의 보이지 않는 ‘Zero‑TIR’ 방식은 툴 호출에 대한 정책이 비정상적으로 희소해, RL 과정에서 비정상적인 보상 신호와 결합해 불안정한 그래디언트가 발생한다. 둘째, 기존의 ‘Cold‑Start SFT’가 텍스트‑중심 CoT를 코드 형태로 단순 변환하거나, 짧은 툴 호출을 포함한 합성 데이터를 사용함으로써, 모델이 장기 툴 플래닝을 학습할 충분한 탐색 공간을 제공하지 못한다.

이에 대한 해결책으로 ASTER는 ‘Interaction‑Dense’ Cold‑Start 데이터를 핵심으로 삼는다. 구체적으로, GPT‑OSS‑20B를 활용해 45 K개의 툴‑증강 솔루션을 생성하고, 그 중 툴 호출 횟수가 9회 이상인 4 K개의 고품질 트래젝터리를 선별한다. 이러한 데이터는 툴 호출 분포가 ‘ReTool’·‘DemyAgent’와 달리 장기 다중턴을 포함해 17 %가 5회 이상 호출되는 특징을 가진다. 결과적으로, SFT 단계에서 모델은 고엔트로피 행동 prior을 형성하고, RL 단계에서 탐색을 억제하지 않는 ‘에이전시(agentic)’ 행동을 유지한다.

RL 단계에서는 기존 PPO 대신 Group Relative Policy Optimization(GRPO)을 채택한다. GRPO는 하나의 쿼리당 G개의 샘플을 동시에 평가해 상대적 보상을 베이스라인으로 삼음으로써, 가치 함수 학습에 드는 메모리와 계산 비용을 크게 절감한다. 또한, 툴 호출 상한을 50회로 설정해 장기 툴 시퀀스를 충분히 탐색하도록 설계했다. 실험 결과, ASTER‑4B는 30 K 추론 예산에서 AIME 2025 85 %를 달성했으며, 예산을 90 K로 확대하면 90 %에 육박한다. 이는 235 B 파라미터 규모의 Qwen3‑235B‑A22B‑Thinking을 능가하는 수치이며, 동일한 추론 예산 하에서 DeepSeek‑V3.2‑Exp(671 B)보다도 우수하다.

또한, 저자들은 세 가지 연구 질문(RQ1‑RQ3)에 대한 정량·정성 분석을 제공한다. RQ1에서는 다양한 Cold‑Start 전략(Zero, ZeroForceTool, ReTool, DemyAgent, ASTER)의 행동 prior 차이를 ‘Agentic Judge’를 통해 평가했으며, ASTER가 가장 높은 플래닝·코드 모델링·오류 처리·툴 효율성 점수를 기록했다. RQ2에서는 툴 호출 밀도가 높은 초기 데이터가 RL 초기에 툴 사용 비율을 유지하고, 최종 성능 향상에 기여함을 입증했다. RQ3에서는 RL 인터랙션 예산을 늘릴수록 학습 안정성이 향상되고, 테스트 시 추론 예산이 제한된 상황에서도 성능 저하가 완만함을 확인했다.

전체적으로 ASTER는 ‘툴 사용을 통한 장기 추론’이라는 목표를 달성하기 위해, 초기 데이터 설계와 RL 알고리즘 선택을 동시에 최적화한 사례라 할 수 있다. 특히, 소수의 고품질 인터랙션‑다밀도 데이터가 대규모 모델 학습에 미치는 파급 효과를 실증함으로써, 향후 툴‑통합 LLM 연구에서 데이터 효율성 및 행동 prior 설계가 핵심 변수임을 강조한다.

툴 통합 추론으로 확장된 에이전트 스케일링

초록

상세 분석

댓글 및 학술 토론

의견 남기기