멀티에이전트 지능을 하나의 LLM에 압축한다

멀티에이전트 지능을 하나의 LLM에 압축한다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AgentArk은 다중 LLM 에이전트가 수행하는 토론·비판·합의 과정을 학습 단계에서 압축해, 단일 모델이 동일한 추론 능력과 자기 교정 기능을 갖도록 하는 프레임워크이다. 최종 답안뿐 아니라 중간 추론 궤적을 활용한 세 가지 계층적 증류 전략(Reasoning‑Enhanced SFT, Trajectory‑Based Data Augmentation, Process‑Aware Distillation)을 제안하고, 다양한 모델·데이터·스케일링 조건에서 실험적으로 검증한다. 결과는 단일 모델이 다중 에이전트 시스템에 버금가는 정확도·견고성·일반화 능력을 달성함을 보여준다.

상세 분석

AgentArk은 “추론 역학을 모델 파라미터에 내재화한다”는 핵심 아이디어를 기반으로, 기존 다중 에이전트 시스템이 추론 단계에서 발생시키는 풍부한 메타 정보를 학습 단계에서 활용한다. 논문은 세 가지 증류 방식을 단계적으로 깊게 적용한다. 첫 번째인 Reasoning‑Enhanced SFT(R‑SFT)는 최종 합의 답안과 함께 전체 추론 트레이스를 입력으로 삼아, 토큰‑레벨 로그우도 손실을 최소화한다. 이는 단순히 정답만 모방하는 기존 SFT와 달리, 중간 단계의 논리 흐름을 재현하도록 모델을 훈련시켜, 답변 생성 시 일관된 사고 과정을 유지하게 만든다. 두 번째인 Trajectory‑Based Data Augmentation(DA)은 “정답‑우선” 필터링을 거친 다수의 올바른 추론 경로를 추출하고, 이를 데이터 증강 형태로 학습에 투입한다. 이렇게 다양한 논리적 경로를 학습함으로써 모델은 동일 문제에 대해 여러 해법을 내포하게 되며, 이는 오류 전파에 대한 내성을 높이고, 새로운 상황에 대한 일반화 능력을 강화한다. 세 번째인 Process‑Aware Distillation(P‑AD)은 단계별 보상 모델(PRM)을 구축해, 각 추론 스텝의 정당성을 정량화한다. PRM은 contrastive reward를 사용해 “상대적 올바름”을 학습하고, 이를 GRPO(Group Relative Policy Optimization)와 결합해 정책 기반 강화학습을 수행한다. 이 과정에서 모델은 자체적으로 자기 검증·수정 루프를 내재화하게 되며, 실험 결과 단계별 오류 탐지와 자체 교정 능력이 크게 향상된 것을 확인한다.

실험에서는 Qwen‑3, Gemma‑3, Llama‑3 등 세 가지 주요 모델군을 대상으로, 대형 교사 모델(예: Qwen‑3‑32B, Gemma‑3‑27B‑it)에서 소형 학생 모델(예: Qwen‑3‑0.6B, Gemma‑7B, Llama‑3‑8B)로 증류하였다. 결과는 (1) R‑SFT만 적용해도 단일 모델이 다중 에이전트 대비 24%p 상승, (2) DA를 추가하면 다중 경로 학습으로 12%p 추가 향상, (3) P‑AD를 최종 적용하면 전체 평균 5~7%p 상승 및 단계별 자기 교정 정확도 향상이 나타났다. 특히 PRM의 용량이 학생 모델보다 클 때 가장 큰 이득을 보였으며, 학생 모델 크기가 작을수록 증류 효과가 제한적이라는 스케일링 한계도 보고되었다. 또한, 증류된 모델은 기존 베이스라인 대비 견고성 테스트(노이즈, 프롬프트 변형)와 도메인 전이(수학·의학·코드)에서 일관된 성능 향상을 보여, 추론 역학 자체가 일반화에 핵심 역할을 함을 시사한다.

한계점으로는 (①) 현재 증류 파이프라인이 토론 기반 MAS에 특화돼 있어, 도구 사용·외부 기억 연동 등 다른 멀티에이전트 패러다임에 대한 적용 가능성이 미확인, (②) PRM 학습에 필요한 라벨링(스텝 정답 여부) 비용이 여전히 존재, (③) 증류 과정에서 교사 모델의 편향이 학생 모델에 그대로 전이될 위험이 있다. 향후 연구는 (i) 다양한 협업 메커니즘(예: 협업 플래닝, 도구 연계)과의 통합, (ii) 라벨‑프리 강화학습 기반 PRM 설계, (iii) 교사‑학생 간 편향 교정 메커니즘 도입을 통해 보다 포괄적인 단일‑에이전트 지능을 구현하는 방향으로 나아갈 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기