대규모 언어 모델 정렬을 위한 견고한 인간 피드백 강화학습
초록
본 논문은 인간 선호 데이터를 이용한 강화학습(RLHF)에서 보편적으로 사용되는 Bradley‑Terry 모델의 가정 위배 문제를 해결하고자, 보상 및 정책 추정의 분산을 감소시키는 Variance‑Reduced Preference Optimization(VRPO) 알고리즘을 제안한다. 이 방법은 기존 RLHF 파이프라인에 보조적인 무보상 선호 모델을 도입해 모델 오차와 정책 후회(regret)를 이론적으로 개선하고, Anthropic Helpful‑Harmless 데이터셋 등에서 53‑98%의 응답이 기존 베이스라인보다 선호되는 실험적 우수성을 보인다.
상세 분석
VRPO는 기존 RLHF가 전제로 하는 “보상 기반 선호(p(x,y₁,y₂)=σ(r(y₂)-r(y₁)))”가 실제 인간 판단과 일치하지 않을 때 발생하는 모델 미스스펙을 완화한다. 핵심 아이디어는 사전 정의된 레퍼런스 정책(π_ref)을 활용해 무한히 많은 응답 샘플을 생성하고, 이들에 대해 인간 라벨이 없는 상태에서도 선호 모델을 학습할 수 있는 반지도학습(semi‑supervised) 구조를 만든다. 구체적으로, 기본 보상 모델 r_θ와 별도로 “보상‑프리” 선호 모델 q_φ를 두어, q_φ는 π_ref가 만든 응답 쌍에 대한 상대적 선호를 예측한다. 이후 두 모델의 출력 차이를 이용해 가중치가 조정된 추정량을 구성함으로써, 보상 모델의 편향과 분산을 동시에 감소시킨다.
이론적 분석에서는 (1) 보상 및 정책 추정기의 분산이 기존 방법 대비 O(1/√N) 수준에서 개선됨을 보였으며, (2) MSE와 후회(regret) 상한이 각각 Theorem 6.2, 6.3에 명시된 바와 같이 미스스펙 상황에서도 기존 RLHF보다 우수함을 증명한다. 특히, 레퍼런스 정책이 정확히 알려졌을 경우(“well‑specified” π_ref) 보조 모델이 거의 완전한 무편향 추정량을 제공한다는 점이 강조된다.
실험에서는 Anthropic Helpful‑Harmless(HH) 데이터셋을 비롯해 여러 공개 LLM 벤치마크에 VRPO를 적용했으며, PPO 기반 정책 학습에 VRPO를 삽입했을 때 평균 77‑81%의 응답이 9개 베이스라인보다 선호되는 결과를 얻었다. 또한, 보상 모델이 고의적으로 잘못 지정된 상황(σ를 sigmoid이 아닌 다른 함수로 교체)과 보상 함수 자체가 파라메트릭 형태에 맞지 않는 상황에서도 VRPO는 안정적인 성능을 유지했다.
한계점으로는 레퍼런스 정책이 실제 배포 환경과 크게 다를 경우(분포 이동) 보조 모델의 효용이 감소할 수 있다는 점과, 무보상 선호 모델 학습에 필요한 대규모 무라벨 데이터 생성 비용이 존재한다는 점을 들 수 있다. 향후 연구에서는 동적 레퍼런스 정책 업데이트와 멀티‑도메인 피드백 통합을 통해 이러한 제약을 완화할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기