fGRPO와 fHAL LLM 정렬을 위한 발산 기반 강화학습
초록
본 논문은 선호 정렬(PA)과 검증 가능한 보상(RLVR) 두 영역을 하나의 f‑다양성(divergence) 프레임워크로 통합한다. 이를 바탕으로 온‑정책 알고리즘 f‑GRPO와 온·오프‑정책 혼합 손실인 f‑HAL을 제안하고, 이들이 기대 보상을 향상시킨다는 이론적 보장을 제공한다. 실험에서는 수학 추론(RLVR)과 안전 정렬(PA) 모두에서 기존 방법을 능가함을 입증한다.
상세 분석
논문은 최근 선호 정렬이 선택된 응답과 거부된 응답 사이의 분포 차이를 f‑다양성(f‑divergence) 추정으로 해석할 수 있다는 사실을 출발점으로 삼는다. 이 시각을 검증 가능한 보상(regrettable reward) 환경으로 확장하기 위해 저자들은 두 가지 핵심 손실을 설계한다. 첫 번째인 f‑GRPO는 기존 GRPO의 표준화된 보상 점수를 f‑다양성의 변분 표현에 삽입하고, 중요도 샘플링을 통해 현재 정책(πθold)에서 샘플된 응답을 ‘정렬된’(보상이 평균 이상)과 ‘비정렬된’(보상이 평균 이하) 두 집합으로 구분한다. 여기서 truncated importance weight ˜w±는 높은(낮은) 보상을 가진 샘플에만 가중치를 부여해 분산을 감소시키면서도 편향을 제한한다. 두 번째 손실인 f‑HAL은 f‑GRPO와 기존의 f‑다양성 옵티마이저(FDO)를 λ 비율로 혼합함으로써, 환경 보상과 인간 선호 데이터 양쪽을 동시에 활용한다. 이 혼합 구조는 보상 해킹 위험을 완화하면서도 데이터 효율성을 높인다. 이론적으로는 정의된 보상‑정렬 분포 D⁺(r,θ), D⁻(r,θ) 사이의 f‑다양성이 감소함을 보이며, ‘Alignment Consistency’를 만족해 정책이 정렬된 샘플의 확률을 증가시키고 비정렬된 샘플의 확률을 감소시킨다. 또한, 기존 GRPO 대비 f‑GRPO가 더 큰 기대 보상 향상을 보장한다는 정리(4.3)를 제시한다. 실험에서는 수학 문제 풀이와 안전성 선호 두 도메인에서 f‑GRPO와 f‑HAL이 각각 기존 GRPO, DPO, PPO 기반 RLHF보다 높은 정확도와 낮은 위험 지표를 기록한다. 전체적으로 본 연구는 f‑다양성이라는 통일된 수학적 도구를 통해 온·오프‑정책 학습을 연결하고, LLM 정렬의 이론적·실용적 기반을 크게 확장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기