RLHF에서 안정적 최적화와 레퍼런스 정규화 통합

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 인간 피드백을 활용한 강화학습(RLHF)에서 발생하는 보상 해킹과 불안정한 정책 업데이트 문제를 동시에 해결하기 위해, 초기 정책 π₀와 현재 정책 πₜ에 대한 두 개의 KL‑패널티를 결합한 ‘듀얼‑KL’ 정규화 방식을 제안한다. 이 접근법은 KL‑패널티를 가중 평균하여 동적으로 변하는 효과적 레퍼런스 정책을 만들고, 이를 기반으로 가중 슈퍼바이즈드 파인튜닝(Weighted SFT) 형태의 RL‑free 알고리즘인 DAR(Dual‑regularized Advantage Regression)를 설계한다. 실험 결과, 듀얼‑KL 기반 Dual‑PPO와 DAR가 기존 PPO 기반 RLHF보다 보상‑KL 트레이드오프에서 우수한 파레토 프론티어를 형성하고, 인간 평가에서도 일관된 성능 향상을 보였다.

상세 분석

이 논문은 RLHF가 직면한 두 핵심 문제—보상 해킹과 정책 최적화의 불안정성—을 기존에는 각각 KL‑패널티(π₀ 대비)와 정책 비율 클리핑(πₜ 대비)으로 별도 해결해 왔지만, 두 정규화가 동시에 적용될 때 발생하는 ‘신뢰 구역 교차’ 문제를 지적한다. 즉, 정책이 π₀와 πₜ 두 레퍼런스 모두와 가까워야 하는 제약이 과도하게 강해져, 고보상 영역이 레퍼런스 정책의 지원을 받지 못하면 탐색이 차단되는 현상이 발생한다.

이를 해결하기 위해 저자들은 듀얼‑KL 정규화를 도입한다. 목표 함수는

  J = E

RLHF에서 안정적 최적화와 레퍼런스 정규화 통합

초록

상세 분석

댓글 및 학술 토론

의견 남기기