추론 보상 모델로 에이전트 학습 혁신

추론 보상 모델로 에이전트 학습 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 에이전트의 행동 궤적에 대해 “추론 트레이스”, “비판적 피드백”, “전체 점수”라는 3가지 구조화된 신호를 제공하는 Agent‑RRM을 제안한다. 이 신호들을 활용해 텍스트 기반 정제(Reagent‑C), 보상 기반 가이드(Reagent‑R), 그리고 두 신호를 통합한 통합 피드백(Reagent‑U) 세 가지 학습 방식을 설계하고, 12개 벤치마크에서 특히 Reagent‑U가 가장 큰 성능 향상을 보였다.

상세 분석

Agent‑RRM은 기존의 스칼라 보상이나 쌍별 선호에 머무르지 않고, 에이전트가 생성한 전체 궤적에 대해 (1) 내부 논리 흐름을 분석한 추론 트레이스, (2) 구체적인 오류를 지적하는 비판, (3) 0‑1 구간의 전체 점수라는 세 가지 출력을 동시에 생성한다. 이러한 다중‑모달 피드백은 에이전트가 중간 단계에서의 실수를 인식하고 수정할 수 있게 해, 최종 정답만을 기준으로 하는 희소 보상의 한계를 극복한다. 학습 프레임워크는 GRPO(Group Relative Policy Optimization)를 기반으로 하며, 중요도 가중치와 KL 정규화를 통해 정책 업데이트를 안정화한다. 세 가지 통합 전략은 각각 텍스트 기반 제로샷 정제, 스칼라 보상과 규칙 기반 보상의 혼합, 그리고 두 신호를 동시에 활용하는 통합 루프를 구현한다. 실험에서는 GAIA와 WebWalkerQA에서 각각 43.7%, 46.2%라는 최고 점수를 기록했으며, 특히 Reagent‑U가 초기 생성 단계와 정제 단계 모두에서 이득을 얻어 성능 상승을 주도한다. 데이터 측면에서는 고품질 추론 궤적을 포함한 55.6K SFT 데이터와 709K RL 데이터, 그리고 RRM 학습을 위한 28K SFT와 90K RL 데이터를 자체 구축해 공개하였다. 한계점으로는 비판 텍스트의 품질이 RRM 자체의 성능에 크게 의존한다는 점과, 대규모 모델에 대한 연산 비용이 높아 실용화에 제약이 있을 수 있다는 점을 들 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기