다중 에이전트 토론을 통한 언어 모델 자체 개선

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다중 에이전트 토론을 활용해 언어 모델을 자체적으로 개선하는 방법인 MACA(Multi‑Agent Consensus Alignment)를 제안한다. 토론 과정에서 생성된 다수·소수 추론 트레이스를 이용해 선호 학습(DPO, KTO 등)을 수행함으로써 모델의 토론 활용 능력(+26.87% MATH), 개별 정확도(+21.51% MathQA), 그리고 자기 일관성(+27.6% GSM8K)을 크게 향상시킨다. 또한 GPQA와 CommonsenseQA와 같은 미보본 벤치마크에서도 일반화 성능이 상승한다.

상세 분석

본 연구는 “자기 개선(self‑improvement)”이라는 목표를 달성하기 위해, 모델 자체가 생성한 신호를 강화 학습의 보상으로 활용한다는 점에서 기존의 외부 라벨 의존 학습과 차별화된다. 핵심 아이디어는 다중 에이전트 토론(multi‑agent debate)에서 발생하는 ‘합의(consensus)’와 ‘반대(minority)’ 추론 트레이스를 구분하고, 이를 선호 학습(preference learning) 형태로 모델에 피드백하는 것이다.

신호 설계: 토론 후 각 에이전트가 만든 전체 추론 경로를 G⁺(다수 합의)와 G⁻(소수 반대)로 라벨링한다. 단순히 최종 정답에 대한 투표만을 보상으로 쓰는 기존의 Majority‑Vote RL과 달리, MACA는 전체 토론 흐름을 비교함으로써 “어떤 논리 전개가 다른 에이전트에게 설득력을 얻었는가”를 학습한다. 이는 토론 과정 자체가 학습 신호가 되도록 만든다.
학습 프레임워크: 네 가지 RL 변형을 실험하였다.
- MV‑SFT: G⁺ 트레이스를 모방하는 지도학습.
- MV‑GRPO: 온라인 샘플링 후 다수/소수 라벨을 보상으로 사용, 그룹 정규화된 advantage를 적용.
- MV‑DPO: G⁺와 G⁻를 쌍(pair)으로 구성해 로그 확률 비를 최적화하는 DPO 방식.
- MV‑KTO: 불균형 데이터에 대비해 가중치를 부여한 KTO 방식.
실험 결과 DPO와 KTO가 가장 높은 성능 향상을 보였으며, 이는 전체 추론 경로를 비교하는 것이 단순한 정답 투표보다 풍부한 신호를 제공한다는 것을 입증한다.
모델 및 실험 설정: Qwen‑2B, Llama‑3B, Phi‑4B, Llama‑8B 등 2~8B 파라미터 규모의 사전 학습된 모델을 4‑bit 양자화(QLoRA) 후, M=3개의 복제 에이전트와 R=2라운드 토론을 구성해 학습하였다. 온도 τ=1.0으로 높은 탐색성을 유지하면서도, 토론 단계별 정확도와 합의 비율을 지속적으로 측정하였다.
성과:
- 다중 에이전트 토론 활용 능력: MATH에서 +26.87%p, GSM8K에서 최종 라운드 합의 비율이 크게 상승.
- 개별 모델 정확도: MathQA에서 +21.51%p, Llama‑8B는 특히 42%p에 달하는 개선을 기록.
- 자기 일관성: GSM8K에서 동일 프롬프트에 대한 여러 추론 경로가 일관된 답을 내놓는 비율이 +27.6%p 향상.
- 일반화: GPQA와 CommonsenseQA와 같은 전혀 다른 도메인에서도 각각 +16.3%p, +11.6%p의 성능 상승을 확인.
한계와 향후 과제: 현재는 동일 모델 복제본 간 토론에 국한되어 있어, 서로 다른 규모·아키텍처의 모델을 혼합했을 때의 시너지 효과는 미탐색이다. 또한 토론 라운드 수와 에이전트 수가 증가할 경우 연산 비용이 급격히 상승하므로, 효율적인 샘플링 및 라벨링 전략이 필요하다.

전반적으로 MACA는 “다중 에이전트 간 협업을 통해 자체적으로 더 나은 추론 패턴을 학습한다”는 새로운 자기 개선 패러다임을 제시하며, 추론 일관성 및 전반적 성능을 동시에 끌어올리는 실용적인 방법론으로 평가된다.

다중 에이전트 토론을 통한 언어 모델 자체 개선

초록

상세 분석

댓글 및 학술 토론

의견 남기기