비대칭 프롬프트 가중치를 활용한 검증 가능한 보상 강화학습
초록
본 논문은 검증 가능한 보상(RL‑VR) 환경에서 프롬프트별 가중치를 비대칭적으로 조정하여, 성공 확률이 낮은(또는 0인) 프롬프트에 더 큰 학습 신호를 부여한다. 실험 결과, 초기 성능이 낮은 from‑scratch RL 설정에서는 제안한 Linear‑R, Plateau‑R, Sqrt‑R 가중치가 기존 GRPO·RLOO·DAPO 대비 크게 성능을 향상시켰으며, 이미 SFT‑단계에 있는 모델에 적용했을 때는 차이가 미미하지만 손해는 없었다. 또한 저성공 영역에서 목표 정확도에 도달하는 시간을 최소화하는 최적 가중치 형태를 이론적으로 분석하였다.
상세 분석
논문은 LLM 사후 학습에서 흔히 사용되는 검증 가능한 보상(정답 여부 등) 기반 강화학습을 대상으로, 기존 알고리즘이 “중간 성공 확률”인 프롬프트에만 높은 가중치를 부여하고, 성공 확률이 거의 0이거나 1에 가까운 프롬프트는 가중치를 크게 낮추는 점을 문제점으로 지적한다. 이는 특히 학습 초기에 성공 확률이 거의 없는 프롬프트에서 유용한 신호를 놓치게 만든다. 저자는 이를 해결하기 위해 5가지 비대칭 가중치 함수를 제안한다.
- Linear‑R: w(ρ)=1/ρ 로, 성공 확률 ρ가 작을수록 가중치가 급격히 증가한다. 효과적인 가중치는 1‑ρ 로, ρ=0에서도 비제로(−1) advantage를 제공한다.
- Sqrt‑R: w(ρ)=1/(ρ√(1‑ρ)) 로, 작은 ρ에서는 Linear‑R과 동일하게 동작하고, ρ가 1에 가까워질수록 GRPO와 유사한 형태로 전환한다.
- Plateau‑R: ρ<0.5 구간에서는 w(ρ)=1/(2ρ(1‑ρ)) 로 일정 가중치를 유지하고, ρ≥0.5에서는 w(ρ)=1/√(ρ(1‑ρ)) 로 전환한다. 즉, 낮은 성공 확률 구간에서는 일정한 “플래토”를 제공한다.
- Uniform‑R: w(ρ)=1/(ρ(1‑ρ)) 로, 기존 RLOO·GRPO의 ρ(1‑ρ) 보정 효과를 완전히 상쇄해 모든 프롬프트에 동일한 가중치를 부여한다.
- Baseline (GRPO/RLOO): 기존 방식은 w(ρ)=1/σ² 혹은 1 로, ρ가 0 또는 1에 가까울 때 가중치가 급격히 감소한다.
이러한 가중치들은 모두 RLOO·GRPO와 동일한 방향 추정식 ˆdₓ(θ)=ρ̂(1‑ρ̂)(b∇₁−b∇₀)을 사용하지만, ωₓ(ρ)=w(ρ)·ρ̂(1‑ρ̂) 라는 스칼라 가중치를 곱해 최종 그라디언트를 조정한다. 저자는 특히 “low‑success regime”에서, 즉 ρ̂≈0인 프롬프트가 대다수를 차지하는 상황에서 비대칭 가중치가 학습 효율을 크게 높인다고 주장한다.
이론적 분석에서는 고정된 업데이트 예산 B 하에 초기 성공 확률 ρ₀에서 목표 ρ*까지 도달하는 기대 시간 T(ω) 를 최소화하는 최적 가중치 ω*를 도출한다. 라그랑주 최적화와 연속시간 마코프 과정 근사를 이용해, ρ가 작을수록 ω(ρ)∝1/ρ 형태가 최적임을 증명한다. 이는 제안한 Linear‑R 혹은 Sqrt‑R이 저성공 구간에서 최적에 가깝다는 것을 의미한다. 반면 ρ가 중간값에 도달하면 기존 GRPO와 유사한 형태로 전환돼 안정성을 유지한다.
실험은 네 가지 설정으로 구성된다. (1) TinyZero 카운트‑다운 과제, (2) GSM8K 수학 과제 – 두 경우 모두 초기 모델이 0.02 이하의 성공률을 보이며, RL‑VR을 통해 0.8 수준까지 끌어올린다. 여기서 Linear‑R, Plateau‑R, Sqrt‑R이 GRPO·RLOO·Uniform‑R보다 평균 0.070.1 높은 Pass@1을 기록한다. (3) DAPO‑math 및 MA‑TH 데이터셋 – 사전 SFT된 Llama‑3.2‑Instruct와 DeepSeek‑R1‑Distill을 사용해 초기 성공률 0.30.4에서 0.5~0.55까지 향상시키지만, 비대칭 가중치와 기존 가중치 간 차이는 통계적으로 유의미하지 않다. 이는 이미 높은 성공 확률 구간에서는 가중치 차이가 크게 작용하지 않음을 시사한다.
추가 분석에서는 (a) ρ̂=0인 프롬프트에 대해 Linear‑R은 −1의 advantage를 제공해 “무보상” 신호도 활용하고, (b) 학습 초기에 롤아웃 수 M=32 로 제한된 상황에서 비대칭 가중치가 샘플 효율을 15~20% 정도 향상시킨다. (c) Gradient variance 측면에서 비대칭 가중치는 낮은 ρ 구간에서 variance를 증가시키지만, 이는 기대 보상 상승 효과가 더 크기 때문에 전체 학습 안정성에 부정적 영향을 미치지 않는다.
결론적으로, 논문은 “hard‑prompt” 문제를 단순히 샘플링 빈도를 늘리는 것이 아니라, 그라디언트 스케일링 자체를 조정함으로써 해결할 수 있음을 보인다. 비대칭 프롬프트 가중치는 특히 from‑scratch RL, 즉 모델이 아직 reasoning 능력이 거의 없는 초기 단계에서 강력한 성능 향상을 제공한다. 기존 GRPO·RLOO와 같은 대칭 가중치가 갖는 “중간 성공률 중심” 편향을 보완함으로써, 검증 가능한 보상 기반 RL의 적용 범위를 넓히는 데 기여한다.
댓글 및 학술 토론
Loading comments...
의견 남기기