분산을 넘어 희귀 사건 증폭과 양방향 페어링을 통한 프롬프트 효율적 RLVR

분산을 넘어 희귀 사건 증폭과 양방향 페어링을 통한 프롬프트 효율적 RLVR
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 검증 가능한 보상(RLVR) 학습에서 극소수의 프롬프트만을 사용해도 높은 수학 추론 성능을 달성할 수 있음을 보인다. 하드‑하지만 해결 가능한 프롬프트와 이지‑하지만 불안정한 프롬프트를 한 쌍으로 구성하고, 이를 Weighted GRPO(WGRPO)와 결합해 희귀 성공·실패를 증폭시켜 양방향 학습 신호를 제공한다. 두 프롬프트만으로도 기존 대규모 프롬프트 풀 대비 경쟁력 있는 결과를 얻는다.

상세 분석

이 연구는 RLVR(검증 가능한 보상 강화학습)에서 “프롬프트 선택”이라는 아직 충분히 탐구되지 않은 문제에 메커니즘 수준의 해석을 제공한다. 기존 작업은 훈련 정확도 분산을 기준으로 프롬프트를 선정했으며, 이는 샘플링 변동성에 민감해 업데이트 방향이 불안정해지는 단점이 있었다. 저자들은 이를 “양방향 학습 신호”라는 관점으로 재구성한다. 구체적으로, (i) 성공 확률이 낮지만 완전히 불가능하지 않은 ‘hard‑but‑solvable’ 프롬프트 q⁺를 선택해 드물게 발생하는 성공을 강한 양의 Advantage로 증폭하고, (ii) 성공 확률이 높지만 완벽하지 않은 ‘easy‑but‑brittle’ 프롬프트 q⁻를 선택해 드물게 발생하는 실패를 강한 음의 Advantage로 증폭한다. 이렇게 하면 각 미니배치가 “긍정적인 앵커”와 “부정적인 경고”를 동시에 제공해, 희귀 이벤트가 학습에 미치는 영향을 크게 확대한다.

핵심 알고리즘인 Weighted GRPO(WGRPO)는 기존 GRPO에 두 가지 변형을 가한다. 첫째, 이진 보상(0/1 또는 -1/1)을 가중된 형태로 변환한다. 성공이면 +1, 실패이면 -λₙₑg(λₙₑg>0)으로 매핑해 실패에 대한 페널티 크기를 조절한다. 둘째, 같은 프롬프트에 대해 G개의 샘플을 모아 그룹 평균 μ와 표준편차 σ를 계산하고, 이를 이용해 정규화된 Advantage Aᵢ = (yᵢ−μ)/σ+εₛₜ𝑑 를 구한다. 이 과정에서 성공 비율 p=k/G가 작을수록 (희귀 성공) A⁺는 (1−p)/


댓글 및 학술 토론

Loading comments...

의견 남기기