보상 형태 변환으로 인퍼런스 정렬 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
KL 정규화 하에서 직접 학습된 보상 모델을 사용하는 기존 정렬 방식은 베이스 모델의 편향을 그대로 전달해 사용자 효용을 충분히 끌어올리지 못한다. 저자는 보상 모델을 리더, LLM 정책을 팔로워로 두는 Stackelberg 게임을 정의하고, 보상을 적절히 “쉐이핑”하면 최적의 보상 모델을 근사할 수 있음을 보인다. Monte‑Carlo 샘플링 기반의 간단한 보상 변환을 기존 인퍼런스‑타임 정렬 파이프라인에 적용한 실험에서 평균 보상이 크게 상승하고, 모든 베이스라인 대비 66 % 이상의 승·무 비율을 달성하였다.
상세 분석
본 논문은 LLM 정렬 과정에서 KL‑다이버전스 제약이 베이스 모델의 내재된 편향을 그대로 유지하게 만든다는 근본적인 한계를 지적한다. 기존에는 사용자 선호로 학습된 보상 모델 r_U를 그대로 사용해 정책 ρ_r을 최적화했지만, KL 제약으로 인해 베이스 정책 ρ_base와의 거리 제한이 보상의 효과를 억제한다. 저자는 이를 “보상 해킹” 위험과의 트레이드오프 속에서 해결하고자, 보상 모델 설계를 게임 이론적 관점에서 재구성한다.
Stackelberg 게임에서 리더는 보상 모델 r을 선택하고, 팔로워인 LLM은 주어진 r와 KL 제약 하에 최적 정책 ρ_r을 구한다. 수식 (3)은 리더가 기대 효용 E_{y∼ρ_r}
댓글 및 학술 토론
Loading comments...
의견 남기기