구조화된 생성의 다목표 강화학습을 위한 블록별 어드밴티지 추정

구조화된 생성의 다목표 강화학습을 위한 블록별 어드밴티지 추정
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 GRPO가 전체 텍스트에 단일 스칼라 어드밴티지를 부여하는 한계를 지적하고, 텍스트를 의미적 블록으로 나누어 각 블록마다 별도의 어드밴티지를 계산하는 Blockwise Advantage Estimation(BAE)을 제안한다. 핵심은 중간 블록의 가치 추정을 위해 추가 롤아웃 없이 그룹 내 샘플을 이용해 조건부 베이스라인을 만든 Outcome‑Conditioned Baseline(O​CB)이다. 수학 문제 해결과 불확실성 추정 태스크에서 BAE‑OCB는 기존 보상 설계 기반 방법과 동등한 성능을 보이며, 신뢰도 보정과 긴 컨텍스트에서도 효율적으로 작동한다.

상세 분석

이 논문은 대형 언어 모델(LLM) 사후 학습에 널리 쓰이는 Group Relative Policy Optimization(GRPO)의 구조적 결함을 파악한다. GRPO는 동일 프롬프트에 대해 여러 샘플을 모아 그룹 평균·분산으로 정규화된 어드밴티지를 계산하고, 이를 완성 전체 토큰에 동일하게 적용한다. 그러나 복합적인 목표—예를 들어 풀이 단계와 자체 검증·신뢰도 보고 단계가 명확히 구분되는 경우—에서는 서로 다른 보상이 동일 블록에 섞여 신호가 혼재한다. 이는 “objective interference”라 불리는 현상을 초래해, 풀이 정확도는 향상되지만 신뢰도 보정이 제대로 학습되지 않는다.

논문은 이를 해결하기 위해 텍스트를 K개의 연속 블록으로 분할하고, 각 블록 k에 고유한 보상 r_k를 정의한다. 그런 다음 블록별 프록시 어드밴티지 \hat A_{i}^{k}=r_{i}^{k}-\hat b_{i}^{k}를 구해, 해당 블록 토큰에만 적용한다. 여기서 가장 어려운 부분은 블록 k>1의 베이스라인 \hat b_{i}^{k}를 어떻게 추정하느냐이다. 이상적인 베이스라인은 중간 상태(블록 k‑1까지의 샘플링된 프리픽스)에서의 가치 기대값 E


댓글 및 학술 토론

Loading comments...

의견 남기기