RePO 온정책 학습과 오프정책 지식 연결을 위한 재표현 정책 최적화

RePO 온정책 학습과 오프정책 지식 연결을 위한 재표현 정책 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델을 도메인 특화 데이터에 맞추면서도 일반성을 유지하기 위해, 오프‑정책 지식을 모델 자체가 이해하고 재표현하도록 유도하는 Rephrasing Policy Optimization(RePO) 방식을 제안한다. RePO는 낮은 보상을 받은 온‑정책 롤아웃을 고품질 오프‑정책 샘플로 대체함으로써 hard sample 활용도를 높이고, 온‑정책 학습의 안정성을 보존한다. 실험 결과, 기존 온‑정책 및 오프‑정책 기반 방법들을 모두 능가하는 성능을 기록한다.

상세 분석

RePO는 기존 온‑정책 강화학습(RL)과 오프‑정책 지식 활용 사이의 근본적인 딜레마를 해결하고자 설계되었다. 온‑정책 RL(예: GRPO)은 모델 자체의 출력만을 사용해 정책을 업데이트하므로 파라미터 분포가 크게 변하지 않아 일반성이 유지된다. 그러나 복잡한 질문, 즉 hard sample에 대해 자체적으로 정답을 생성하기 어려워 학습이 정체되는 문제가 있다. 반면 오프‑정책 접근(LUFFY 등)은 강력한 전문가 모델이나 인간 데이터에서 직접 정답을 가져와 학습에 활용하지만, 외부 분포와 현재 모델 분포 사이의 큰 차이로 인해 훈련이 불안정해진다.

RePO는 두 단계로 구성된다. 첫 번째 단계인 “지식 내부화”에서는 오프‑정책 지식 k(예: 전문가의 풀이 과정)를 프롬프트에 삽입해 모델에게 이해하도록 요구한다. 모델은 자체 어휘와 스타일로 k를 재표현하여 새로운 롤아웃 o_rep을 생성한다. 이 과정은 외부 지식을 모델 내부의 토큰 분포에 맞게 변환하므로, 이후 정책 업데이트 시 KL 발산이나 어휘 불일치 문제가 최소화된다.

두 번째 단계인 “동적 가이드 전략”에서는 현재 쿼리 q에 대한 온‑정책 롤아웃 그룹 G의 보상 분포를 분석한다. 보상 임계값 δ와 최소 실패 비율 ρ를 기준으로, 그룹 내 실패 비율 γ_fail이 ρ 이상이면 가장 낮은 보상의 롤아웃을 o_rep으로 교체한다. 이렇게 하면 모델이 스스로 해결하지 못하는 hard sample에 대해서만 외부 지식이 직접적인 학습 신호로 제공된다. 반면 γ_fail이 낮으면 기존 온‑정책 롤아웃을 그대로 유지해 순수 온‑정책 학습 흐름을 보존한다.

RePO는 기존 GRPO의 그룹 기반 어드밴티지 계산 방식을 그대로 사용하면서, 교체된 롤아웃에 대해서도 동일한 어드밴티지를 적용한다. 따라서 정책 업데이트는 PPO 스타일의 클리핑 손실과 KL 제약을 통해 안정적으로 수행된다.

안정성 분석에서는 세 가지 지표(Entropy, Gradient Norm, Reward)를 통해 GRPO, LUFFY, RePO를 비교하였다. LUFFY는 오프‑정책 샘플을 직접 매핑하면서 어휘 불일치와 강제 피팅으로 인해 Gradient Norm이 급격히 변동하고, 학습이 종종 발산한다. 반면 RePO는 모델 자체가 재표현을 수행하므로 Gradient Norm과 Entropy가 안정적인 수준을 유지하면서도 Reward가 크게 향상된다.

실험에서는 수학 추론, 사실 기반 질의응답 등 다양한 벤치마크에서 RePO가 기존 온‑정책(GRPO) 및 오프‑정책(LUFFY) 방법보다 높은 정확도와 빠른 수렴 속도를 보였다. 특히 hard sample 비율이 높은 데이터셋에서 RePO의 이점이 두드러졌으며, 이는 동적 교체 메커니즘이 효과적으로 고품질 학습 신호를 제공했기 때문이다.

요약하면, RePO는 오프‑정책 지식을 “재표현”이라는 중간 과정을 통해 모델 내부 분포에 맞게 변환하고, 그룹 기반 보상 분석을 통해 필요할 때만 교체함으로써, 오프‑정책 지식 활용의 효율성과 온‑정책 학습의 안정성을 동시에 달성한다.


댓글 및 학술 토론

Loading comments...

의견 남기기