동적 파워 평균으로 그룹 기반 강화학습 통합하기

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 GRPO의 산술 평균과 GMPO의 기하 평균을 일반화한 파워 평균 정책 최적화(PMPO) 프레임워크를 제안한다. 지수 p 를 동적으로 조정함으로써 각 롤아웃의 신뢰도에 따라 공격적인 업데이트와 보수적인 업데이트를 자동 전환한다. 클립 비율을 이용한 효과적 샘플 크기(ESS) 매칭 메커니즘을 통해 p 를 결정하고, 이를 토큰 수준의 가중치에 적용한다. 실험 결과, 수학적 추론 벤치마크에서 기존 방법들을 크게 능가한다.

상세 분석

PMPO는 토큰 수준 중요도 비율 rₜ 에 대한 집계 방식을 일반화된 평균인 파워 평균으로 정의한다. 파워 평균의 차수 p 가 1이면 산술 평균, p→0이면 기하 평균에 수렴하므로 GRPO와 GMPO를 각각 특수 경우로 포함한다. 핵심 이론적 기여는 파워 평균의 미분 형태가 Δℓₜ (로그 확률 변화)의 소프트맥스 형태와 온도 1/p 로 연결된다는 점이다. 즉, p 가 작을수록 토큰 가중치가 균등해져 안정성이 높아지고, p 가 클수록 높은 Δℓₜ 값을 가진 토큰에 가중치가 집중돼 학습 효율이 증가한다.

이러한 p 조정을 위해 저자는 PPO 스타일의 로그 도메인 클리핑을 적용한 뒤, 클립 비율 f 을 기반으로 목표 ESS 비율 η* = 1/n + f·(1‑1/n) 을 정의한다. ESS는 현재 가중치 분포의 집중도를 정량화하는 지표이며, 목표 ESS와 실제 ESS가 일치하도록 p 를 이진 탐색으로 해결한다. 이 과정은 p 를 클립 비율에 역비례하게 만들어, 불안정한 롤아웃에서는 보수적인 p (≈0)로, 안정적인 롤아웃에서는 공격적인 p (≈1)로 전환한다.

실험에서는 여러 수학적 추론 데이터셋(예: GSM8K, MATH)에서 그룹 크기 K 를 다양하게 설정하고, PMPO가 기존 GRPO, GMPO, GSPO 등과 비교해 수렴 속도와 최종 정확도 모두에서 우위를 보였다. 특히, 긴 체인‑오브‑생각(Chain‑of‑Thought) 시나리오에서 토큰 비율의 극단값에 의해 발생하는 불안정성을 효과적으로 억제하면서도, 중요한 추론 단계에서는 충분히 큰 업데이트를 수행한다는 점이 강조된다.

한계점으로는 p 의 탐색 비용이 추가되며, 클리핑 임계값 c 와 ESS 목표 ε_ess 의 하이퍼파라미터 선택이 성능에 민감할 수 있다는 점이다. 향후 연구에서는 p 의 연속적 추정(예: 메타‑학습)이나, 다중 그룹 간 상호작용을 고려한 확장형 파워 평균을 탐색할 여지가 있다.

동적 파워 평균으로 그룹 기반 강화학습 통합하기

초록

상세 분석

댓글 및 학술 토론

의견 남기기