가치 모델을 사전 학습하라: 분리된 가치 정책 최적화
초록
본 논문은 인간 피드백을 이용한 강화학습(RLHF)에서 보상 모델을 먼저 학습하고 이후에 가치 모델을 온라인으로 학습하는 기존 파이프라인이 정보적으로 불필요함을 지적한다. 동일한 선호 데이터만을 사용해 가치 모델을 직접 사전 학습하고 이를 고정된 비평가(Global Value Model, GVM)로 활용하면, 정책 최적화 과정에서 비평가의 드리프트와 높은 계산 비용을 제거하면서도 기존 최첨단 RLHF 방법과 동등하거나 더 나은 성능을 달성할 수 있음을 실험적으로 입증한다.
상세 분석
이 논문은 RLHF에서 “보상 → 가치”라는 이중 학습 단계가 본질적으로 중복된 정보를 사용한다는 점을 이론적으로 증명한다. 선호 데이터 D가 고정된 상황에서 보상 모델 Rϕ를 학습한 뒤, 이를 기반으로 가치 함수 Q를 추정하는 과정은 Rϕ에서 얻은 정보를 그대로 활용하는 것이므로, 동일한 D만을 이용해 Qψ를 직접 사전 학습하는 것과 정보량이 동일하다는 ‘Equivalence Lemma’를 제시한다. 이를 바탕으로 저자는 Global Value Model(GVM)이라는 정책‑조건부 행동‑가치 함수 Qϕ(τ, s, a)를 오프라인으로 학습한다. 여기서 τ는 임의의 정책 궤적을 샘플링한 것으로, 정책의 스타일·정확도·도메인 특성을 암묵적으로 인코딩한다. GVM은 토큰‑레벨 반환값(return‑to‑go)을 TD(Temporal Difference) 손실 L_GVM = (r_t + γ Qϕ(τ, s_{t+1}, a_{t+1}) – Qϕ(τ, s_t, a_t))² 로 학습한다. 중요한 점은 GVM이 한 번 학습되면 고정된 비평가로 사용되어, 이후 정책 최적화 단계에서는 PPO의 클리핑 목표 L_PPO(θ) = E
댓글 및 학술 토론
Loading comments...
의견 남기기