전문가별 학습으로 강화된 에이전트 코딩 모델 KATCoderV2

** 본 논문은 쿠아이쇼(Kuaishou) 소속 KwaiKAT 팀이 개발한 에이전트 코딩 모델 KATCoderV2의 설계·구현·평가 전 과정을 상세히 기술한다. 모델은 “Specialize‑then‑Unify”라는 두 단계 전략을 채택한다. 첫 단계에서는 소프트웨어 엔지니어링(SWE), 웹코딩(WebCoding), 터미널(Terminal), 웹검색(WebSearch), 일반(General)이라는 다섯 개의 독립적인 전문가 영역을 정의하고, 각 영역에 특화된 데이터 파이프라인을 구축한다. SWE 영역은 Issue‑PR 매핑, AutoBuilder, Code Comprehension 등 실제 오픈소스 리포지터리를 활용해 장기 컨텍스트와 자연스러운 정답 신호(merge status)를 제공한다. 이를 통해 모델은 이슈 설명 → 파일·함수 탐색 → 결함 위치 파악 → 코드 수정까지의 전체 흐름을 학습한다. WebCoding 영역은 UI 생성, 디자인 라벨링, Prompt Rewrite 등을 통해 비전문가 입력을 미적 결과물로 변환하는 능력을 강화한다. Terminal 영역은 CLI 추론, Docker 기반 검증, SWE‑to‑Terminal 변환 등을 포함해 명령줄 환경에서의 상태 추적과 명령 실행을 학습한다. WebSearch 영역은 검색‑합성 파이프라인을 구축하기 위해 지식 그래프(KG) 생성, Pass@8 필터링, 재현 샘플링을 적용한다. General 영역은 QA·코드‑수학 복합 과제와 장기 대화 샘플을 통해 기본적인 코드 논리와 대화 능력을 보강한다. 각 전문가 모델은 대규모 슈퍼바이즈드 파인‑튜닝(SFT) 후, KwaiEnv이라는 모듈식 인프라 위에서 환경‑피드백 기반 강화학습(RL)을 수행한다. KwaiEnv은 데이터·샌드박스·스캐폴드·검증 로직을 완전히 분리한 5개의 핵심 모듈(데이터, 검증기, 스캐폴드, 샌드박스, 트래젝터리 매니저)로 구성돼 수만 개의 샌드박스를 동시에 운영할 수 있다. 이를 통해 RL 단계에서 수십만 건의 고난이도 멀티턴 트래젝터리를 효율적으로 수집한다. RL 과정에서 두 가지 시스템 최적화가 도입된다. 첫째, MCLA(Monte‑Carlo Log‑Probability Averaging)는 MoE( Mixture‑of‑Experts) 구조에서 로그‑확률의 분산을 평균화해 학습 안정성을 크게 향상시킨다. 둘째, Tree Training은 트리형 멀티턴 트래젝터리를 재사용해 중복 연산을 제거함으로써 최대 6.2배의 학습 속도 향상을 달성한다. 전문가 모델들을 온‑폴리시 디스틸레이션(On‑Policy Distillation, OPD)으로 하나의 통합 모델에 압축한다. OPD는 온‑폴리시 탐색 중 발생하는 실시간 오류를 회피하면서, 각 전문가 모델이 제공하는 단계별 정답 라벨을 밀집하게 학습시켜 노출 편향을 최소화한다. 결과적으로 KATCoderV2는 단일 모델이면서도 다섯 영역의 전문성을 모두 보유한다. 성능 평가에서는 SWE‑bench Verified에서 79.6%를 기록해 Claude Opus 4.6(80.8%)에 근접했으며, PinchBench에서는 88.7%로 GLM‑5(86.4%)·MiniMax M2.7(87.1%)을 앞섰다. 프론트엔드 미적 평가(랜딩 페이지, 슬라이드, 데이터 시각화)에서도 3가지 시나리오 모두 1위를 차지했다. 일반화 테스트인 Terminal‑Bench Hard에서는 46.8점, τ²‑Bench에서는 93.9점을 기록해 전반적인 일반화 능력도 입증했다. 논문의 한계로는 (1) 각 도메인별 데이터 구축 비용이 높고 지속적인 레포지터리 업데이트가 필요함, (2) 전문가 간 목표 충돌 시 해결 메커니즘이 명시적으로 제시되지 않아 특정 상황에서 성능 저하 가능성, (3) 현재 6.7 B 파라미터 모델을 기준으로 실험했으며, 더 큰 모델에 동일 파이프라인 적용 시 메모리·연산 비용이 급증할 수 있다는 점을 들 수 있다. 그럼에도 불구하고 KATCoderV2는 도메인 전문화와 대규모 에이전트 RL을 효과적으로 결합한 설계로, 차세대 코딩 에이전트 연구에 중요한 로드맵을 제공한다. 특히 KwaiEnv 인프라와 MCLA·Tree Training 같은 시스템‑레벨 최적화는 멀티모달·멀티에이전트 학습 환경 구축에 재사용 가능성이 높으며, 향후 더 큰 모델·다양한 도메인으로 확장될 여지를 충분히 보여준다. **

전문가별 학습으로 강화된 에이전트 코딩 모델 KATCoderV2

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기