논리 기반 보상으로 강화학습 없이 LLM 정렬하기

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 RLHF에서 필수적인 보상 모델을 대신할 논리‑유사도 보상 메커니즘을 제안하고, 이를 GRPO에 라벨 기반 감독을 결합한 S‑GRPO 프레임워크에 적용한다. FOL 번역, WMT 번역, PKU‑SafeRLHF 선호 데이터셋에서 S‑GRPO가 기존 SFT와 DPO 대비 안정성과 성능에서 우수함을 실증한다.

상세 분석

S‑GRPO는 기존 GRPO의 손실식에 두 가지 핵심 요소를 추가한다. 첫째, 정답 라벨을 직접 이용해 로그우도 비율 J_SFT(θ)=E

논리 기반 보상으로 강화학습 없이 LLM 정렬하기

초록

상세 분석

댓글 및 학술 토론

의견 남기기