상호작용 보상으로 진화하는 다중 에이전트 시스템
초록
CoMAS는 외부 보상 없이 LLM 기반 에이전트들이 서로의 대화에서 얻은 내재 보상을 활용해 강화학습으로 정책을 업데이트함으로써 자율적 자기 진화를 구현한다. LLM‑as‑judge가 토론 기록을 점수화하고, 솔루션·평가·점수의 세 단계 상호작용을 통해 제로섬 보상 구조를 만든다. 실험에서 다양한 벤치마크와 에이전트 구성에 걸쳐 미학습 에이전트를 크게 앞서며, 에이전트 수와 다양성이 증가할수록 성능이 향상되는 스케일러블 특성을 보였다.
상세 분석
CoMAS는 크게 세 가지 핵심 모듈로 구성된다. 첫 번째는 상호작용 단계로, 질문‑답변 형식의 토론을 솔루션 제시, 평가, 점수 부여의 순환 구조로 설계한다. 각 라운드에서 임의의 에이전트가 솔루션을 제시하고, 다른 에이전트가 비판적 평가를 수행하며, 별도의 스코어링 에이전트가 사전에 정의된 포맷에 따라 점수를 매긴다. 이 과정은 인간 커뮤니티(레딧, 스택오버플로우)의 토론 흐름을 모방해, 다양한 관점과 오류 탐지를 자연스럽게 유도한다.
두 번째는 보상 형성이다. 점수 τᵢⱼ는 1~3의 정수값으로 해석되며, 3은 솔루션이 정답이고 평가가 부적절함을, 1은 솔루션이 틀렸고 평가가 정확함을 의미한다. 이를 정규화해 r(sᵢ)= (τ̂ᵢⱼ−1)/2, r(eᵢⱼ)= (3−τ̂ᵢⱼ)/2 로 변환함으로써 솔루션 제공자와 평가자 사이에 제로섬 게임을 만든다. 즉, 한쪽이 높은 보상을 받으면 다른 쪽은 그만큼 감소한다. 이는 에이전트가 정확성과 비판적 사고를 동시에 학습하도록 유도한다. 점수 부여 단계 자체에도 포맷 오류에 대한 패널티 r(τᵢⱼ)=−1을 부여해, 스코어링 에이전트가 중립적이고 일관된 출력을 유지하도록 강제한다.
세 번째는 정책 최적화 단계다. 각 에이전트는 자체 정책 π_θₖ를 가지고 있으며, 토큰 수준에서 자동 회귀 방식으로 응답을 생성한다. 보상 신호는 솔루션·평가·점수 각각에 대해 별도로 수집되어, PPO 혹은 REINFORCE와 같은 정책 그라디언트 알고리즘에 입력된다. 중요한 점은 에이전트들이 분산 학습을 수행한다는 것으로, 동일한 파라미터를 공유하지 않아도 된다. 이는 서로 다른 규모·아키텍처의 LLM을 혼합해도 학습이 가능함을 의미한다.
실험 설계는 네 가지 설정(Vanilla, Consistency, AutoGen, Debate)과 여러 데이터셋(수학, 코딩, 일반 지식)에서 진행되었다. CoMAS는 미학습 베이스라인 대비 평균 2.2%~19.8%의 절대 성능 향상을 기록했으며, 특히 Debate 설정에서 가장 큰 폭의 개선을 보였다. Ablation 연구에서는 (1) 점수 기반 보상을 제거했을 때 학습 붕괴와 보상 해킹 현상이 발생하고, (2) 에이전트 수를 늘릴수록 성능이 선형에 가깝게 상승함을 확인했다. 이는 상호작용 기반 보상이 학습 안정성을 제공하고, 시스템 규모에 따라 스케일링 효과가 존재한다는 강력한 증거다.
한계점으로는 LLM‑as‑judge의 신뢰성에 의존한다는 점, 점수 포맷이 고정돼 있어 복잡한 다중 선택형 과제에 적용이 어려울 수 있다는 점, 그리고 현재 실험이 주로 텍스트 기반 문제에 국한돼 있다는 점을 들 수 있다. 향후 연구에서는 더 정교한 판정 모델, 다중 모달 토론, 그리고 장기적인 자기 주도 학습 시나리오를 탐색할 여지가 있다.
전반적으로 CoMAS는 외부 감독 없이 에이전트 간의 협업·비판을 통해 내재 보상을 생성하고, 이를 강화학습에 직접 연결함으로써 인간 집단 지성의 진화 메커니즘을 모방하는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기