보상조건부 그룹 상대 정책 최적화로 다중턴 도구 호출 강화
초록
다중턴 도구 호출에서 보상이 희소하고 탐색 비용이 큰 문제를 해결하기 위해, 저자들은 보상 토큰을 이용해 롤아웃의 다양성을 인위적으로 주입하는 RC‑GRPO 방식을 제안한다. 보상조건부 궤적 정책(RCTP)을 사전 학습한 뒤, GRPO 단계에서 각 그룹 내에 서로 다른 보상 토큰을 샘플링해 그룹 정규화 이점을 유지한다. BFCLv4 벤치마크에서 기존 SFT+GRPO 대비 일관된 성능 향상을 보였으며, Qwen‑2.5‑7B‑Instruct 모델은 모든 폐쇄형 API 모델을 앞섰다.
상세 분석
본 논문은 대형 언어 모델(LLM) 기반 도구 사용 에이전트가 다중턴 상호작용에서 직면하는 두 가지 핵심 난관—희소한 트래젝터리 레벨 보상과 높은 탐색 비용—을 정확히 짚어낸다. 기존의 SFT(슈퍼바이즈드 파인튜닝) 후 GRPO(Group Relative Policy Optimization) 파이프라인은 정책이 ‘골든 패스’를 학습하면서 롤아웃 다양성이 급격히 감소하고, 이로 인해 같은 그룹 내 보상 분산이 거의 0에 수렴한다. 그룹 정규화된 어드밴티지는 μ와 σ를 이용해 보상을 표준화하는데, σ가 0에 가까워지면 어드밴티지가 사라지고 정책 업데이트가 소멸한다는 ‘그라디언트 붕괴’ 현상이 발생한다. 저자들은 이를 해결하기 위해 보상 토큰(<|high_reward|>, <|low_reward|>)을 명시적으로 삽입하는 보상조건부 궤적 정책(RCTP)을 먼저 학습한다. RCTP는 동일 프롬프트에 대해 토큰에 따라 고품질·저품질 궤적을 구분해 생성하도록 훈련되며, 이는 반환조건부 학습(return‑conditioned learning)의 아이디어를 LLM에 적용한 형태이다. 이후 RL 단계에서는 GRPO 그룹을 구성할 때 각 샘플에 서로 다른 보상 토큰을 무작위로 할당한다. 이렇게 하면 같은 프롬프트라도 고보상·저보상 궤적이 섞여 그룹 내 σ가 인위적으로 확대되고, 어드밴티지 계산이 의미 있는 값으로 유지된다. 수식적으로는 기존 GRPO의 어드밴티지 A_j = (R_j - μ_g)/σ_g에 ε_stab를 더해 안정성을 확보하고, PPO‑style 클리핑 손실에 KL‑regularization을 추가한다. 중요한 점은 토큰 샘플링 확률 p를 RCTP 훈련 데이터의 성공 비율에 맞춰 설정함으로써 분포 이동을 최소화하고, 정책이 토큰에 따라 행동을 조절하도록 강제한다는 것이다. 실험에서는 LLaMA‑3.1‑8B‑Instruct와 Qwen‑2.5‑7B‑Instruct 두 모델을 사용해 BFCLv4 다중턴 벤치마크에서 RC‑GRPO가 SFT+GRPO 대비 평균 성공률을 4~7%p 상승시켰으며, 특히 Qwen‑2.5‑7B‑Instruct는 모든 상용 API 기반 에이전트를 앞섰다. 학습 동역학 분석에서는 엔트로피‑보상 상관관계가 증가하고, 그룹 내 어드밴티지 분산이 크게 확대된 것을 확인했다. 또한, 토큰을 무시하고 단순 온도 조절만으로는 동일한 효과를 얻지 못함을 실험적으로 입증했다. 이론적 분석에서는 보상 토큰이 그룹 내 분산을 보장하는 최소 조건을 제시하고, 그에 따른 수렴 속도와 샘플 효율성을 정량화하였다. 전체적으로 RC‑GRPO는 “완벽함이 탐색을 죽인다”는 패러독스를 해결하고, 보상 조건부 생성이라는 간단하지만 강력한 메커니즘을 통해 그룹 기반 정책 최적화의 실용성을 크게 확장한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기