다중 턴 언어 피드백으로 강화학습 성능 향상

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MulFeRL은 실패한 샘플에만 언어형 피드백을 제공하고, 이를 다중 턴 재생성 과정에 결합해 GRPO와 DPO 두 가지 학습 신호를 동시에 활용한다. OpenR1‑Math에서 기존 RLVR 및 지도학습 기반 모델을 능가하며, 도메인 외 수학·과학 문제에서도 일반화 능력을 보인다.

상세 분석

본 논문은 강화학습 기반 추론 모델이 직면하는 “스칼라 보상 희소성” 문제를 언어 피드백이라는 풍부한 신호로 완화한다는 점에서 의의가 크다. 핵심 아이디어는 (1) 모든 후보가 실패했을 때만 피드백을 요청하고, (2) 피드백을 조건으로 새로운 후보군을 다중 턴에 걸쳐 재생성하며, (3) 두 종류의 학습 목표—동일 턴 내 상대적 보상을 이용한 GRPO와 이전 턴 대비 선호를 학습하는 DPO—를 교차 적용한다는 것이다.

먼저, 초기 K‑샘플을 생성하고 검증기(V)로부터 0/1 보상을 받는다. 전부 실패하면 피드백 시뮬레이터(ψ)가 현재 그룹 전체에 대한 오류 요약과 개선 지시를 생성한다. 이 피드백은 모델 입력에 추가되어 다음 턴의 조건(cₜ)으로 사용되며, 새로운 K‑샘플을 다시 생성한다. 이렇게 피드백‑조건 재생성 루프를 최대 T번 반복하면서, (i) 혼합된 성공·실패 그룹이 나타나면 기존 GRPO 방식을 적용해 그룹 내 상대적 어드밴티지를 계산하고 정책을 업데이트한다. (ii) 재생성 후 전부 성공하면 GRPO는 신호가 사라지므로, 이전 턴의 샘플과 현재 샘플을 짝지어 “피드백이 개선을 이끌었다”는 선호 관계를 DPO 손실로 학습한다.

GRPO는 기존 RLVR에서 사용되는 그룹 상대 보상(average‑centered, variance‑scaled)과 KL 정규화를 그대로 유지하면서, 피드백이 포함된 컨텍스트(cₜ)만을 정책‑그라디언트 계산에 포함한다. DPO는 로그 확률 차이 Δθ를 이용해 선호 쌍에 대한 로지스틱 손실을 최소화함으로써, 피드백이 실제 성능 향상으로 연결됐는지를 직접적으로 강화한다.

이중 신호 체계는 (a) 피드백이 충분히 강력해 한 번에 성공을 이끌 경우에도 학습이 멈추지 않게 하고, (b) 피드백이 부분적으로만 효과적일 때는 GRPO를 통해 미세 조정을 가능하게 한다. 또한, 피드백을 “그룹‑레벨”로 요약하고, 필요 시 서브‑피드백을 두 단계로 집계해 토큰 길이 제한을 회피한다는 구현적 트릭도 제시한다.

실험에서는 OpenR1‑Math에서 샘플링된 1M 트레이닝 샘플을 사용해, 기존 GRPO, PPO, DPO 단일 방식 대비 평균 4~6%p(percentage points) 상승을 기록했다. 특히, 어려운 문제군에서 실패율이 70% 이상인 경우에도 다중 턴 피드백 루프가 성공률을 20% 이상 끌어올렸다. 도메인 외 평가에서는 MATH, GSM‑8K, 그리고 과학 추론 벤치마크(ARC‑E, SciQ)에서 모두 기존 최첨단 모델보다 높은 정확도를 보였으며, 특히 “피드백 없이도” 단일 패스 추론 시에도 성능 이득이 유지되는 점이 주목할 만하다.

한계점으로는 (1) 피드백 시뮬레이터의 품질에 크게 의존한다는 점, (2) 다중 턴 재생성으로 인한 학습 비용 증가, (3) 현재는 피드백을 외부 LLM에 의존하지만, 실제 인간 교사의 피드백을 적용할 경우 비용·시간 효율성이 어떻게 변할지는 미정이다. 향후 연구에서는 피드백 자동 생성 모델을 자체적으로 학습시키거나, 피드백 선택 정책을 메타‑RL로 최적화하는 방안을 제시한다.

다중 턴 언어 피드백으로 강화학습 성능 향상

초록

상세 분석

댓글 및 학술 토론

의견 남기기