보상 이동과 클립된 KL 정규화 하에서 RLHF 일반화 이론

본 논문은 인간 피드백을 이용한 강화학습(RLHF)에서 보상 모델이 과거 정책 데이터에 기반해 학습되는 “보상 이동”과, 샘플링된 로그비율을 클립하여 적용하는 “클립된 KL 정규화”가 일반화 오차에 미치는 영향을 정량화한다. PAC‑Bayes 기반의 고확률 일반화 경계식을 제시하고, 샘플링 오차·보상 이동 오차·KL 클립 오차 세 가지 요소로 분해한다. 또한 KL 클립 임계값 선택과 프롬프트·롤아웃·라벨 예산 배분에 대한 실용적 가이드를 제공한…

저자: Kenton Tang, Yuzhu Chen, Fengxiang He

**1. 서론** RLHF는 대형 언어 모델을 인간 선호에 맞추는 핵심 방법으로, 실제 서비스에서 널리 사용되고 있다. 그러나 현재 이론적 연구는 주로 RLHF의 최적화 특성을 다루며, 학습된 정책이 실제 배포 시 얼마나 일반화되는지는 충분히 설명되지 않는다. 특히 두 가지 실무적 문제—보상 모델이 과거 정책 데이터에 기반해 학습되는 보상 이동과, KL 정규화를 샘플링된 로그비율에 클립을 적용해 구현하는 클립된 KL 정규화—가 일반화 분석을 복잡하게 만든다. 본 논문은 이러한 문제를 명시적으로 모델링하고, 고확률 일반화 경계식을 도출한다. **2. 관련 연구** 기존 연구는 RLHF를 최적화 관점에서 분석하거나, 보상 이동에 대한 실증적 연구에 머물렀다. 또한 KL 정규화의 구현 차이에 따른 편향을 다룬 실험적 논문도 있다. 최근 동시 연구인 Li et al. (2026)는 선형 보상 모델 가정 하에 알고리즘 안정성을 이용해 일반화 분석을 수행했지만, 보상 모델의 비선형성, 보상 이동, KL 클립을 포함하지 않는다. 본 논문은 이러한 한계를 넘어 보다 일반적인 설정을 다룬다. **3. 사전 정의** - 정책 πθ, 기준 정책 πref, 프롬프트 분포 ρ, 보상 모델 ˆrφ, 목표 보상 r★. - KL 정규화 강도 β와 클립 임계값 τ. - 데이터 분포 Dtrain (프롬프트와 기준 정책에 기반)와 정책 유도 분포 Dθ. - 보상 모델 훈련 MSE L²train(φ). **4. 일반화 오차 분해** Lemma 1에 의해 일반화 오차는 세 항으로 분해된다. ① 샘플링 오차: 프롬프트와 롤아웃의 유한 샘플링으로 인한 통계적 변동. ② 보상 이동 오차: 보상 모델이 훈련된 분포와 현재 정책이 방문하는 분포 사이의 차이, χ² 커버리지 계수 C(θ) 로 정량화. ③ KL 클립 오차: 클립된 KL와 정확한 KL 사이의 차이, τ에 의존. **5. 샘플링 오차 경계** - 롤아웃 샘플링: Hoeffding 부등식을 이용해 \((1+2βτ) \sqrt{\log(2/δ)/(2nK)}\) 로 상한. - 프롬프트 샘플링: \((1+2βτ) \sqrt{\log(2/δ)/(2n)}\) 로 상한. - 두 오차를 합쳐 전체 샘플링 오차는 \((1+2βτ)

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기