LLM 추론을 위한 역강화학습 기반 프로세스 보상 모델 학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
rePIRL은 전문가 정책에 대한 가정 없이 전문가 궤적만으로 토큰‑레벨 보상 함수를 학습하는 역강화학습 프레임워크이다. 보상 모델과 정책을 교차 업데이트하고, 중요도 샘플링과 파티션 함수 제거 기법을 도입해 대규모 LLM에 적용 가능하도록 설계하였다. 이론적으로 온라인·오프라인 PRM 학습 방법을 통합하고, 수학·코딩 벤치마크에서 기존 방법들을 능가함을 실험으로 입증한다.
상세 분석
rePIRL은 기존 PRM(Process Reward Model) 연구가 안고 있던 두 가지 근본적인 한계를 동시에 해결한다. 첫째, 대부분의 오프라인 방법은 전문가 정책이 제공하는 토큰‑레벨 보상 라벨이나 선호도 데이터를 필요로 하는데, 이는 인간 라벨링 비용이나 MCTS 기반 비용이 크게 소요된다. 둘째, 온라인 방법은 모델 자체의 엔트로피나 신뢰도를 보상으로 삼아 엔트로피 붕괴(entropy collapse) 현상을 겪는다. rePIRL은 이러한 전제조건을 완전히 배제하고, 오직 전문가 궤적 D만을 사용한다.
핵심 아이디어는 고전 역강화학습(IRL)의 에너지 기반 모델링을 LLM 토큰‑레벨 MDP에 그대로 적용하는 것이다. 보상 함수 rϕ(s,a)를 파라미터화하고, 숨은 변수 o_t∈{0,1}을 도입해 “전문가가 선택한 행동”과 “비전문가가 선택한 행동”을 구분한다. p(o_t|s_t,a_t)∝exp(rϕ(s_t,a_t)) 형태의 확률을 정의함으로써, 전문가 궤적의 로그우도 J(ϕ)=E_{τ∈D}
댓글 및 학술 토론
Loading comments...
의견 남기기