정책 발산 측정 재고를 위한 통합 프레임워크와 GRPO 개선
초록
본 논문은 GRPO 기반 강화학습에 사용되는 정책 발산 제약을 일반화한 통합 클리핑 프레임워크를 제안한다. Likelihood ratio와 KL 발산을 모두 포괄하며, 특히 분산이 낮은 Monte‑Carlo KL3 추정기를 핵심 제약으로 채택한다. KL3 기반 제약은 비대칭적인 비율 클리핑과 수학적으로 동등함을 증명하고, 이를 활용한 A‑TR‑GRPO가 탐색성을 강화하면서도 학습 안정성을 유지한다. 수학적 추론 벤치마크 실험에서 기존 GRPO 대비 성능·안정성이 향상된 결과를 보여준다.
상세 분석
이 논문은 LLM 기반 RLVR(RL with Verified Reward)에서 정책 업데이트의 안정성을 보장하기 위해 널리 사용되는 GRPO와 PPO의 ratio‑clipping 메커니즘이 실제로는 정책 발산을 제한하는 하나의 특수 사례에 불과함을 지적한다. 저자들은 “일반화된 클리핑 연산자” clip_general(w_t, C) 를 정의하고, C를 임의의 발산 제약 함수로 두어 기존 ratio‑clipping, KL‑clipping, 동적 비대칭 클리핑 등을 모두 포괄하도록 설계하였다. 이 프레임워크는 정책 파라미터 θ에 대한 샘플‑레벨 제약을 명시적으로 표현함으로써, 제약 함수 C가 만족되지 않을 경우 기존 정책 w_t(old)으로 되돌리는 단순한 구조를 유지한다.
핵심 기여는 KL3 추정기(KL3_t = w_t − 1 − log w_t)의 도입이다. KL3는 전체 행동 공간에 대한 기대값을 계산하지 않아도 되는 경량 추정기로, 대규모 토큰 어휘를 갖는 LLM에 적합하다. 논문은 KL3_t가 실제 KL 발산의 2차 근사임을 보이며, KL3 ≤ δ 제약이 w_t에 대한 비대칭 클리핑 구간
댓글 및 학술 토론
Loading comments...
의견 남기기