에이전트컨덕터 난이도에 맞춘 동적 토폴로지 진화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AgentConductor는 LLM 기반 오케스트레이터를 중심으로, 문제 난이도에 따라 토폴로지 밀도를 자동 조절하고 실행 피드백을 이용해 다중 턴에 걸쳐 상호작용 그래프를 진화시켜 경쟁 수준 코드 생성 성능을 크게 향상시킨다.

상세 분석

본 논문은 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)이 코드 생성 과제에서 보여주는 잠재력을 한 단계 끌어올렸다. 기존 연구들은 고정된 토폴로지 혹은 사전 정의된 프루닝 방식을 사용해 비용을 절감했지만, 문제 난이도에 따른 토폴로지 밀도 조절이나 실행 피드백을 통한 실시간 토폴로지 재구성은 지원하지 못했다. AgentConductor는 이러한 한계를 극복하기 위해 세 가지 핵심 설계를 도입한다. 첫째, 계층형 DAG(Directed Acyclic Graph) 구조를 채택해 동일 레이어 내 병렬 처리와 레이어 간 교차 연결을 동시에 허용한다. 이는 완전 메쉬의 복잡성을 피하면서도 정보 흐름을 풍부하게 만든다. 둘째, ‘토폴로지 밀도 함수’를 정의해 에이전트 간 통신 비용을 수학적으로 정량화한다. 이 함수는 노드 수, 에지 수, 레이어 깊이 등을 고려해 밀도 상한을 난이도 구간별로 설정함으로써, 어려운 문제일수록 더 촘촘한 그래프를, 쉬운 문제일수록 희소한 그래프를 자동 생성한다. 셋째, 강화학습(RL) 기반 정책 최적화를 적용한다. 오케스트레이터 LLM은 사전 학습(SFT) 단계에서 다양한 토폴로지 샘플을 학습하고, 이후 GRPO(Generalized Reward Policy Optimization) 알고리즘을 통해 구조 정확성, 코드 정확도(pass@k), 그리고 밀도 비용을 동시에 최적화하는 다목적 보상을 받는다. 특히, 실행 환경에서 반환되는 오류 메시지, 타임아웃, 테스트 결과 등을 피드백으로 활용해 다음 턴에서 토폴로지를 재생성함으로써, 실패 시 즉시 구조를 수정한다. 실험에서는 세 개의 경쟁 수준 데이터셋(예: Codeforces, AtCoder)과 두 개의 기초 코드 데이터셋에서 최고 성능을 기록했으며, 기존 최강 모델 대비 pass@1 정확도가 최대 14.6% 상승하고, 토폴로지 밀도는 평균 13% 감소, 토큰 사용량은 68% 절감되었다. 이러한 결과는 토폴로지 설계가 코드 생성 품질에 미치는 영향을 정량적으로 입증한 동시에, 동적 토폴로지 진화가 비용 효율적인 고성능 코딩 에이전트에 필수적임을 보여준다.

에이전트컨덕터 난이도에 맞춘 동적 토폴로지 진화

초록

상세 분석

댓글 및 학술 토론

의견 남기기