미래 KL 기반 정책 최적화로 깊은 추론 이끌어내기

미래 KL 기반 정책 최적화로 깊은 추론 이끌어내기
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FIPO는 결과 기반 보상에서 발생하는 균일한 어드밴티지의 한계를 극복하기 위해 토큰별 미래 KL 발산을 이용해 조밀한 어드밴티지를 제공한다. 미래 KL를 할인하고 클리핑·마스킹으로 안정성을 확보함으로써 Qwen2.5‑32B 모델의 체인‑오브‑생각 길이를 4 000 토큰에서 10 000 토큰 이상으로 늘리고 AIME 2024 Pass@1을 50 %에서 최고 58 %까지 끌어올렸다. 코드와 학습 파이프라인을 공개하여 대규모 LLM 강화학습 연구에 기여한다.

상세 분석

FIPO는 기존 GRPO·DAPO 계열이 사용하던 “결과 기반 보상”(Outcome‑Based Reward, ORM)에서 파생된 토큰‑레벨 어드밴티지의 균일 분배 문제를 근본적으로 재설계한다. 핵심 아이디어는 현재 토큰이 이후 토큰들의 생성 확률에 미치는 영향을 정량화하는 Future‑KL 지표를 도입하는 것이다. FutureKLₜ는 현재 시점 t부터 시퀀스 끝 T까지의 로그 확률 변화 ∆log pₖ를 누적한 값으로, 이는 미래 토큰들의 전체 KL 발산을 로그‑우도 비율 형태로 근사한다. 양의 FutureKL은 해당 토큰이 이후 추론 흐름을 강화하는 ‘앵커’ 역할을 함을 의미하고, 음의 값은 뒤따르는 토큰들이 정책에 의해 억제되고 있음을 나타낸다.

하지만 순수 FutureKL은 중요 비율(ratio) 폭발과 그래디언트 발산을 야기한다. 이를 해결하기 위해 FIPO는 두 가지 안전 장치를 적용한다. 첫째, Dual‑Clip 임계값 c를 초과하는 토큰에 대해 마스크 Mₖ=0을 부여해 누적에 제외한다. 이는 정책이 이미 클리핑된 위험 토큰이 과도한 가중치를 갖는 것을 방지한다. 둘째, 시간적 거리 k‑t에 따라 지수적 할인 γ^{k‑t}를 곱해 ‘소프트 디케이 윈도우’를 구현한다. γ는 τ 파라미터에 의해 정의되며, τ가 클수록 더 긴 미래를 고려하지만 가중치는 반감한다. 이렇게 하면 근접 토큰에 더 큰 신뢰를 부여하면서 먼 토큰의 불확실성을 자연스럽게 억제한다.

FutureKL 가중치 fₜ는 exp(FutureKLₜ)를 클리핑(


댓글 및 학술 토론

Loading comments...

의견 남기기