쿼리 적응형 신뢰 영역 정책 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 기존 GRPO·GSPO와 같은 휴리스틱 신뢰 영역 방식이 중요도 비율 클리핑과 정책 스테일니스에 취약한 문제를 지적하고, 각 쿼리마다 KL 제약을 명시적으로 부과하는 쿼리 적응형 신뢰 영역 최적화(QUATRO)를 제안한다. 라그랑주 이중화로 도출된 정확한 목표함수는 정책 업데이트를 직접 제어하고, 클리핑 없이도 안정적인 학습과 엔트로피 유지가 가능함을 수학적·실험적으로 입증한다.
상세 분석
QUATRO는 LLM 파인튜닝을 강화학습 문제로 보는 기존 접근법의 핵심 약점을 정확히 파악한다. GRPO와 GSPO는 토큰‑레벨 혹은 시퀀스‑레벨 중요도 비율을 클리핑(ε)하여 정책 변화를 억제하지만, 클리핑 경계 밖의 샘플은 완전히 무시되어 ‘그라디언트 마스킹’ 현상이 발생한다. 이는 정책 스테일니스가 커질수록(즉, 샘플링 정책과 현재 정책의 차이가 커질수록) 클리핑 비율이 급증하고, 학습이 불안정해지는 원인이다. 또한, 전역적인 KL 제한값 δ를 모든 쿼리에 동일하게 적용함으로써, 쉬운 쿼리는 과도하게 확정적이 되고 복잡한 쿼리는 탐색 예산이 부족해 ‘엔트로피 붕괴’와 모드 수렴을 초래한다.
QUATRO는 이러한 문제를 해결하기 위해 쿼리‑조건부 KL 제약을 도입한다. 식(7)에서 각 쿼리 q마다 KL(πθ‖πold) ≤ δ를 독립적으로 부과함으로써, 쿼리별 난이도와 보상 분산에 따라 업데이트 강도를 자동 조절한다. 라그랑주 이중변수를 λq와 μq로 설정하고, 최적화 조건을 변분법으로 풀어 π⋆(o|q)=πold(o|q)·exp
댓글 및 학술 토론
Loading comments...
의견 남기기