CE RM 두 단계 롤아웃과 통합 기준으로 최적화된 포인트와이즈 보상 모델

CE RM 두 단계 롤아웃과 통합 기준으로 최적화된 포인트와이즈 보상 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존의 쌍대(pairwise) 평가에 의존하던 생성형 보상 모델(RM)의 한계를 지적하고, 질의 기반 통합 기준을 먼저 생성한 뒤 응답을 평가하는 두 단계 롤아웃 방식을 제안한다. 5.7 K개의 고품질 데이터만을 활용해 4 B 파라미터 규모의 CE‑RM‑4B 모델을 학습시켰으며, 다양한 RM 벤치마크와 Best‑of‑N 시나리오에서 기존 모델들을 능가하고, 실제 강화학습(RL) 적용에서도 더 큰 성능 향상을 입증한다.

상세 분석

이 연구는 생성형 보상 모델(GRM)의 실용성을 저해하는 두 가지 핵심 문제를 명확히 규정한다. 첫째, 공개된 선호 데이터가 대부분 쌍대 형태이며, 이에 기반한 RM은 RL 단계에서 점수 변환을 위해 Elo와 같은 복잡한 알고리즘을 필요로 해 계산 비용이 제곱적으로 증가한다. 둘째, 기존 연구는 평가 기준을 응답과 함께 조건화하여 생성하지만, 이는 동일 질의에 대해 여러 응답을 평가할 때 기준이 일관되지 않아 편향을 초래한다. 저자들은 이러한 문제를 해결하기 위해 ‘통합 기준(unified criteria)’ 개념을 도입한다. 구체적으로, 질의 x만을 입력으로 기준 c를 생성하고, 이후 (x, c, 응답 y) 형태로 상세 평가 e를 생성한다는 두 단계 프로세스를 설계하였다. 이 접근법은 기준이 질의에 고정되므로 다수의 응답을 비교할 때 일관성을 유지하고, 평가 단계에서 기준을 재사용함으로써 연산 효율성을 크게 향상시킨다.

데이터 측면에서는 대규모 공개 선호 데이터인 Skywork‑Reward‑Preference‑80K‑v0.2에서 품질 필터링을 거쳐 약 5.7 K개의 고품질 인스턴스를 추출한다. 필터링은 (1) Qwen3‑4B‑Instruct‑2507을 이용한 다중 포인트와이즈 평가를 통해 선택‑거부 응답 간 정확도가 0.6 이하인 사례를 선별하고, (2) 질의 유형별 클러스터링 후 층화 샘플링을 적용해 작업 다양성을 보장한다.

학습 단계는 두 부분으로 나뉜다. ‘콜드 스타트’ 단계에서는 소량의 SFT 데이터를 활용해 기준 c와 평가 e를 동시에 학습한다. 여기서 기준은 3가지 후보를 생성하고, 각 기준에 대한 평가 점수의 분산이 최소가 되는 후보를 선택함으로써 기준의 명확성을 확보한다. 이후 RL 단계에서는 기존의 쌍대 라벨만을 사용해 기준과 평가 각각에 대한 미세 보상 신호를 추정한다. 구체적으로, 기준 c_i에 대한 보상은 해당 기준으로 생성된 평가 점수들 사이의 승률로 정의하고, 평가 e_ij에 대한 보상은 선택‑거부 응답 간 점수 비교 승률에 형식 보상(정답 여부) 을 곱한 형태로 설계한다. 이렇게 얻어진 보상은 PPO‑계열 알고리즘인 GRPO와 결합된 두 단계 롤아웃에 적용되어, 기준 생성과 응답 평가를 독립적인 최적화 목표로 동시에 학습한다.

실험 결과는 세 가지 주요 벤치마크(RWBench, RWBench2, RM‑Bench)와 Best‑of‑N 시나리오에서 CE‑RM‑4B가 기존 7 B‑32 B 규모 모델들을 앞선다는 것을 보여준다. 특히 응답 수가 4~6개로 늘어날수록 ‘통합 기준’ 방식의 장점이 두드러지며, 이는 논문 초반의 예비 실험 결과와 일치한다. 추가적인 Ablation 연구에서는 (1) 기준 생성 없이 직접 점수만 출력하는 ‘Direct Evaluation’ 대비 성능 향상, (2) 두 단계 롤아웃 없이 단일 단계 학습 시 성능 저하, (3) 기준 선택 시 분산 기반 필터링을 제거했을 때의 불안정성을 확인한다. 마지막으로 실제 RL 환경에서 GRPO와 결합했을 때, CE‑RM‑4B를 사용한 정책이 동일 환경에서 GPT‑4o 기반 RM을 사용했을 때보다 더 높은 인간 평가 점수와 빠른 수렴 속도를 보였다.

이 논문은 (i) 쌍대 평가에 의존하던 기존 GRM의 구조적 한계를 진단하고, (ii) 질의 기반 통합 기준과 두 단계 롤아웃이라는 새로운 학습·추론 프레임워크를 제시함으로써, 적은 데이터와 파라미터 규모에도 불구하고 실제 RL 적용에서 의미 있는 성능 향상을 달성했다는 점에서 의미가 크다. 다만, 현재는 5.7 K개의 고품질 데이터에 의존하고 있어 데이터 규모 확대에 따른 성능 변화를 추가로 검증할 필요가 있다. 또한 기준 생성 모델이 질의에 과도하게 의존할 경우, 질의 자체가 모호하거나 다의적인 경우에 대한 견고성 평가도 향후 연구 과제로 남는다.


댓글 및 학술 토론

Loading comments...

의견 남기기