RLVR 최적화 동역학 Gradient Gap과 단계 크기 임계값
초록
본 논문은 검증 가능한 이진 보상을 이용한 대형 언어 모델 사후 학습(RLVR)의 학습 과정을 이론적으로 분석한다. 핵심 개념인 Gradient Gap을 도입해 저성능 응답에서 고성능 응답으로 이동하는 방향을 정량화하고, 이 Gap과 정렬 정도에 따라 학습 수렴 여부가 결정됨을 보인다. 또한 Gradient Gap의 크기에 기반한 명확한 단계‑크기(learning‑rate) 임계값을 제시해, 임계값 이하에서는 수렴하고 그 이상에서는 성능 붕괴가 일어난다. 길이 정규화와 성공률‑의존 학습률 조정이 왜 효과적인지도 이론적으로 설명한다. REINFORCE와 GRPO 등 기존 정책‑그라디언트 알고리즘에 모두 적용 가능한 일반적 프레임워크를 제공하고, 밴딧 실험과 Qwen2.5‑Math‑7B에 대한 실험으로 이론을 검증한다.
상세 분석
논문은 먼저 RLVR을 “정책 πθ가 이진 보상 r⋆∈{0,1}을 최대화하도록 파라미터 θ를 조정한다”는 형태로 정식화한다. 여기서 핵심은 응답 공간 O를 성공 집합 O⁺와 실패 집합 O⁻로 분할하고, 각각에 대해 조건부 정책 π⁺θ와 π⁻θ를 정의한 뒤, 두 집합에서 기대되는 스코어 함수 ∇θ log πθ의 차이를 Gradient Gap g_gap = g⁺ − g⁻ 로 정의한다. 식 (9)에서 보듯 정책 그라디언트 ∇θ J(πθ)는 J(πθ)(1‑J(πθ))·g_gap 로 표현되는데, 이는 성공률 J가 0 또는 1에 가까워질수록 스케일이 급격히 감소함을 의미한다. 따라서 g_gap 자체가 “진정한 개선 방향”이며, 학습이 성공적으로 진행되려면 업데이트 방향 w_k가 g_gap와 양의 내적을 가져야 한다(정렬 신호 Δμ_k = w_k·g_gap > 0).
정리 1에서는 정책 스코어 함수의 유계성(G₀)와 Lipschitz 연속성(L₀)을 가정하고, 단계 크기 η_k가 L₀와 G₀에 의해 제한되는 조건 η_k ≤ ½√L₀를 제시한다. 이 하에서 두 가지 시나리오가 전개된다. (a) 정렬 신호가 약해 누적 정렬 M_K = ∑_{k< K}(Δμ_k + η_k) 가 유한하게 유지되면, 즉 Δμ_k가 거의 0이거나 η_k가 지나치게 작으면 학습은 정체(stagnation)한다. 이 경우 성공률 J_k는 초기값보다 크게 향상되지 않으며, 1에 도달하지 못한다. (b) 반대로 Δμ_k가 충분히 양수이고 η_k가 Δμ_k에 비례해 적절히 조정될 때(η_k ≤
댓글 및 학술 토론
Loading comments...
의견 남기기