오픈루브릭스 대규모 합성 루브릭 생성으로 보상 모델링과 LLM 정렬 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

OpenRubrics는 프롬프트와 루브릭 쌍을 대규모로 수집한 데이터셋과, 선호‑반대 응답을 대비해 하드 룰과 원칙을 동시에 생성하는 Contrastive Rubric Generation(CRG) 방식을 제안한다. 생성된 루브릭을 이용해 Rubric‑RM 보상 모델을 학습하면 기존 스칼라·쌍별 모델 대비 평균 8.4%의 성능 향상을 달성하고, 이를 정책 모델에 적용했을 때 인스트럭션 팔로잉 및 의료 벤치마크에서도 유의미한 개선을 보인다.

상세 분석

본 논문은 기존 RLHF에서 사용되는 스칼라 점수나 단순 쌍별 선호 라벨이 인간 선호의 다면성을 충분히 포착하지 못한다는 문제점을 지적하고, 구조화된 평가 기준인 루브릭을 보상 신호로 활용하는 Rubrics‑as‑Rewards(RaR) 패러다임을 확장한다. 핵심 기여는 두 가지 루브릭 유형을 명시적으로 구분하고, 이를 자동으로 생성하는 Contrastive Rubric Generation(CRG)이다. CRG는 동일 프롬프트에 대해 선호되는 응답과 거부된 응답을 동시에 제공함으로써, 모델이 “무엇이 좋은 응답을 만들고 무엇이 나쁜 응답을 만들게 하는가”를 명시적으로 학습하도록 유도한다. 하드 룰은 프롬프트에 명시된 객관적 제약을 텍스트 형태로 추출하고, 원칙은 보다 추상적인 품질(논리성, 사실성, 스타일 등)을 요약한다.

루브릭 품질을 보장하기 위해 논문은 Preference‑label Consistency 필터링을 도입한다. 생성된 루브릭을 이용해 모든 가능한 응답 쌍에 대해 모델이 예측한 선호와 인간 라벨을 비교하고, 일치율이 사전 정의된 임계값(τ=0.5) 이상인 경우에만 해당 루브릭을 학습 데이터에 포함한다. 이 과정은 노이즈가 많은 자동 생성 루브릭을 효과적으로 정제하여, 최종 보상 모델이 인간 선호와 일관된 판단을 내릴 수 있게 만든다.

데이터 측면에서는 UltraFeedback, Magpie, Skywork‑Preference, Synthetic‑IF, MegaScience, Medical‑o1 등 다양한 도메인의 기존 선호·SFT 데이터셋을 통합하고, 각 프롬프트에 대해 다중 LLM(Qwen‑3‑B, LLaMA‑3.1, Gemma‑3)으로 후보 응답을 생성한다. 이렇게 확보한 35.7k 프롬프트와 그에 대응하는 평균 4~6개의 하드 룰·원칙을 포함한 루브릭은 도메인·길이·구조적 다양성을 확보한다.

학습 단계에서는 먼저 루브릭 생성 모델 gθ를 프롬프트‑조건부로 미세조정하고, 이후 Rubric‑RM rϕ를 루브릭을 입력으로 하는 쌍별 보상 모델로 학습한다. 실험 결과, Rubric‑RM은 동일 규모의 스칼라 기반 모델 대비 평균 8.4% 높은 정확도를 보였으며, 이를 PPO 기반 정책 모델에 적용했을 때 Alpaca‑7B, LLaMA‑13B 등에서 인스트럭션 팔로잉 정확도와 의료 질문 응답 품질이 각각 2~5%p 상승했다. 특히, 원칙과 하드 룰을 결합한 루브릭은 과도하게 긴 출력으로 인한 false positive를 감소시키는 효과가 확인되었다.

한계점으로는 CRG가 여전히 LLM의 사전 지식에 의존하므로, 매우 전문적인 도메인(예: 법률, 고급 의학)에서는 루브릭의 정확도가 떨어질 가능성이 있다. 또한, Preference‑label Consistency 필터링이 τ 값에 민감해, 지나치게 높은 임계값은 데이터 손실을, 낮은 임계값은 노이즈 유입을 초래한다는 점이 언급된다. 향후 연구는 도메인‑전문가와의 협업을 통한 루브릭 검증, 그리고 다중 라벨(다중 선호) 상황을 포괄하는 확장된 CRG 프레임워크 개발을 제안한다.

오픈루브릭스 대규모 합성 루브릭 생성으로 보상 모델링과 LLM 정렬 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기