560억 파라미터 초거대 에이전트 모델 LongCat Flash Thinking 2601

560억 파라미터 초거대 에이전트 모델 LongCat Flash Thinking 2601
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LongCat Flash Thinking 2601은 560 억 파라미터 규모의 Mixture‑of‑Experts 모델로, 에이전트형 검색·툴 사용·툴 통합 추론 등 다양한 에이전트 벤치마크에서 최고 수준의 성능을 기록한다. 환경 스케일링, 노이즈 주입 학습, Heavy Thinking 테스트‑타임 스케일링 등 세 가지 핵심 기술을 통해 복잡한 도구 상호작용과 실세계 잡음에 강인한 일반화 능력을 확보한다.

상세 분석

본 논문은 초대형 MoE 구조를 에이전트 추론에 최적화하는 전 과정을 체계적으로 제시한다. 첫 번째 핵심은 ‘도메인 병렬 전문가 훈련 + 퓨전’이라는 두 단계 학습 파이프라인이다. 560 억 파라미터 중 평균 27 억 활성 파라미터만을 토큰당 사용하도록 설계해 연산 효율성을 유지하면서도 전문가 간 특화된 지식을 보존한다. 두 번째는 환경 스케일링이다. 10 000개가 넘는 실행 가능한 파이썬 기반 툴 환경을 20개 이상 도메인에 걸쳐 자동 생성하고, 의존 그래프를 구축해 복합 툴 체인 샘플링을 가능하게 한다. 이를 위해 DORA(동적 비동기 롤아웃 오케스트레이션) 시스템을 32 000개의 동시 환경까지 확장했으며, 비동기 RL 루프가 장기 히스토리와 희소 보상을 안정적으로 학습하도록 설계했다. 세 번째는 실세계 잡음에 대한 체계적 분석이다. 데이터 수집 단계에서 환경 파라미터 변동, API 지연, 오류 반환 등 다중 레벨 잡음을 정의하고, 커리큘럼 기반 RL로 점진적 난이도 상승을 적용해 모델이 불완전한 피드백에도 견고히 작동하도록 훈련한다. 마지막으로 Heavy Thinking 모드는 테스트 시에 추론 깊이와 폭을 동시에 확장한다. 여러 병렬 사고 경로를 생성하고, 후처리 단계에서 결과를 종합·정제함으로써 복잡 문제에 대한 탐색 능력을 크게 향상시킨다. 실험 결과, BrowseComp 73.1 %, RWSearch 77.7 %, τ2‑Bench 88.2 % 등 주요 에이전트 벤치마크에서 오픈소스 모델 중 최고 점수를 기록했으며, VITA‑Bench 같은 잡음이 많은 실세계 시나리오에서도 29.3 %의 성공률을 보였다. 전체적으로 데이터 합성, 환경 구축, 인프라 설계, 테스트‑타임 스케일링이 유기적으로 결합된 점이 본 모델의 차별화된 강점이다.


댓글 및 학술 토론

Loading comments...

의견 남기기