공유 메모리로 효율적인 병렬 에이전트 시스템 구현
초록
본 논문은 병렬로 실행되는 다중 LLM 에이전트 팀이 중복 작업을 반복하는 비효율성을 해결하기 위해, 전역 공유 메모리와 이를 제어하는 경량 컨트롤러를 도입한다. 강화학습 기반의 메모리 입출력 정책을 학습시켜 전역적으로 유용한 중간 결과만을 저장·재사용하도록 함으로써, 실행 시간은 크게 단축되면서도 성능은 기존 병렬 베이스라인과 동등하거나 향상된다.
상세 분석
LTS(Learning to Share)는 병렬 에이전트 프레임워크에 전역 공유 메모리 뱅크와 메모리 입출력 결정을 담당하는 경량 컨트롤러를 추가한다. 메모리 뱅크는 (키, 값) 형태의 텍스트 쌍으로 구성되며, 키는 짧은 자연어 요약, 값은 원본 에이전트 출력이다. 각 팀의 오케스트레이터는 전체 키 목록만을 컨텍스트에 노출받고, 필요 시 해당 키를 선택해 값을 삽입함으로써 중복 작업을 회피한다.
핵심 기술은 메모리 입출력 정책을 학습하는 단계별 강화학습(RL)이다. 메모리 입출력 결정은 “YES/NO” 토큰 하나로 표현되는 이진 행동이며, 직접적인 정답 라벨이 존재하지 않기 때문에 사용량 기반 보상 shaping을 도입한다. 구체적으로, 메모리 항목이 다른 팀에 재사용되어 최종 성공에 기여하면 긍정 보상을, 불필요하거나 오류를 전파하는 경우에는 패널티를 부여한다. 이를 통해 컨트롤러는 “전역적으로 유용한” 중간 결과를 자동으로 식별하고, 메모리 크기 증가를 억제한다.
실험은 도구 집약적인 장기 과제 벤치마크인 GAIA와 AssistantBench을 사용하였다. 동일한 기본 에이전트 아키텍처(MagneticOne 기반)와 M1‑Parallel 병렬 실행을 베이스라인으로 두고, LTS를 적용한 경우 평균 실행 시간이 30% 이상 감소했으며, 최종 정확도와 성공률은 12%p 상승하거나 기존 수준을 유지했다. 특히, “전역 메모리 없이 모든 팀이 독립적으로 작업”하는 경우와 비교했을 때, 중복 웹 검색·표 파싱·코드 생성 단계가 크게 줄어들어 전체 스텝 수가 2025% 감소하였다.
추가 분석에서는 무조건 모든 중간 결과를 저장하는 ‘전역 메모리’ 전략이 컨텍스트 오버헤드와 불필요한 검색 비용으로 인해 성능이 저하되는 것을 확인했다. 반면, 학습된 컨트롤러는 실패한 도구 호출이나 부분 코드와 같이 재사용 가치가 낮은 항목을 효과적으로 배제한다. 메모리 성장 억제를 위한 제한(예: 최대 엔트리 수)과 보상 shaping 파라미터의 민감도 실험도 수행했으며, 적절한 하이퍼파라미터 설정 하에서 안정적인 성능 향상이 관찰되었다.
이 논문은 병렬 에이전트 시스템에서 “공유 메모리 + 선택적 입출력”이라는 새로운 효율성 패러다임을 제시하며, 향후 더 큰 규모의 멀티‑에이전트 협업, 실시간 도구 연동, 그리고 메모리 기반 메타‑학습 등에 적용 가능성을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기