GRPO 정규화의 필요성: 지역 곡률 기반 적응형 그래디언트 해석

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM 기반 추론에 널리 쓰이는 무비평가자 강화학습 알고리즘 GRPO가 왜 표준편차 정규화를 통해 성능이 향상되는지를 지역 곡률 관점에서 설명한다. 정규화가 각 프롬프트별 보상 분산을 곡률의 역추정치로 활용해 적응형 학습률을 구현함을 보이고, 이론적으로 REINFORCE 대비 수렴 속도가 보장되는 조건을 제시한다. GSM8K와 MATH 실험을 통해 초기 고분산·정규 직교 단계, 중간 안정 단계, 후기 직교 손실 단계의 세 가지 학습 양상을 규명한다.

상세 분석

논문은 먼저 GRPO가 기존 REINFORCE에 “그룹 평균 보상”을 베이스라인으로 사용하고, 각 프롬프트 내 응답들의 보상 표준편차로 스케일링한다는 점을 강조한다. 이를 수학적으로 전개하면, 정책 그래디언트 ∇J_i(θ) 에 대해
∇J_i^GRPO(θ)=∇J_i(θ)/V

GRPO 정규화의 필요성: 지역 곡률 기반 적응형 그래디언트 해석

초록

상세 분석

댓글 및 학술 토론

의견 남기기