절대점수에서 상대순위로: 그룹 기반 강화학습 보상 설계 재고

절대점수에서 상대순위로: 그룹 기반 강화학습 보상 설계 재고
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 그룹 기반 강화학습(GRPO)에서 절대적인 스칼라 보상의 한계를 지적하고, 상대 순위 기반 보상 체계인 RLRR을 제안한다. 순위 보상 모델(Ranking Reward Model)을 도입해 그룹 내 응답을 직접 순위화함으로써 보상 희소성과 점수 불안정을 완화한다. 실험 결과, 추론 및 개방형 생성 벤치마크에서 기존 절대 보상 방식보다 일관된 성능 향상을 입증한다.

상세 분석

본 연구는 LLM(대형 언어 모델)의 추론 능력 향상을 위해 그룹 기반 강화학습(GRPO)이 활용되는 현황을 출발점으로 삼는다. GRPO는 동일 프롬프트에 대해 여러 응답을 생성하고, 각 응답에 부여된 절대 점수의 평균을 빼는 방식으로 어드밴티지를 계산한다. 그러나 두 가지 근본적인 문제점이 존재한다. 첫째, 검증 가능한 과제(예: 수학 문제)에서는 정답·오답이 이진화된 규칙 기반 보상이 주어지는데, 학습이 진행될수록 대부분의 그룹이 동일한 라벨을 갖게 된다. 이때 그룹 내 점수 분산이 사라져 어드밴티지 신호가 0이 되며, 효과적인 샘플 활용도가 급격히 감소한다. 논문은 이를 “Effective Sample” 비율이 40% 이하로 떨어지는 현상으로 정량화한다. 둘째, 개방형 생성 과제에서는 스칼라 보상 모델(SRM)이 무한히 큰 점수 범위를 가질 수 있어, 그룹 평균·표준편차에 의존하는 어드밴티지 추정이 점수 스케일 변동에 민감해진다. 이는 학습 안정성을 저해하고, 급격한 파라미터 업데이트를 초래한다.

이러한 한계를 극복하기 위해 저자들은 “Relative Reward”라는 새로운 보상 패러다임을 제시한다. 핵심 아이디어는 절대 점수를 버리고, 그룹 내 응답을 직접 순위화하여 순위 자체를 보상 신호로 활용하는 것이다. 이를 위해 두 가지 구체적 메커니즘을 설계한다. ① Hybrid Relative Reward(HRR): 검증 가능한 과제에서 규칙 기반 이진 점수(s_rule)를 기본으로 유지하면서, 순위 r_i에 기반한 부가적인 보정 τ·tanh((r_max−r_i)/ (r_max−1))을 더한다. tanh 함수는 상위 순위에 더 큰 인센티브를 제공하면서도 전체 보정 폭을 제한한다. ② Pure Relative Reward(PRR): 검증이 불가능한 경우, 순위 자체를 0~1 구간으로 정규화한다(s_rank = (r_max−r_i)/(r_max−1)). 이렇게 하면 절대 점수의 스케일 변동과 무관하게 어드밴티지가 순위 차이에만 의존하게 된다.

순위 기반 보상을 적용하면서도 “Correctness‑Aware Advantage Clipping”을 도입한다. 올바른 답변이지만 순위가 낮아 부정적 어드밴티지를 받을 경우, 하한 ξ⁻를 설정해 과도한 패널티를 방지한다. 반대로, 잘못된 답변이 높은 순위를 얻어 과도한 보상을 받는 상황을 ξ⁺로 제한한다. 이는 모델이 기본적인 정답 생성 능력을 손상시키지 않으면서도 미세한 품질 차이를 학습하도록 만든다.

순위 정보를 생성하기 위해 “Ranking Reward Model”(Ranking RM)을 별도로 학습한다. 기존 SRM은 개별 응답을 독립적으로 점수화하지만, Ranking RM은 리스트 형태의 응답 집합을 한 번에 입력받아 직접 순위 퍼뮤테이션을 예측한다. 학습 데이터는 LLM이 생성한 후보군에 대해, 우선 규칙 기반 정답 여부에 따라 크게 구분하고, 동일 정답군 내부에서는 SRM 점수 혹은 더 강력한 LLM 판정으로 순위를 매긴다. 또한, “Hierarchical Re‑ranking” 단계에서 먼저 정답·오답을 lexicographic하게 정렬하고, 그 다음 길이 기반 보정을 적용해 과도한 장황성을 억제한다.

실험에서는 수학·프로그래밍·코드 인터프리테이션 등 검증 가능한 벤치마크와, 자유형 텍스트 생성, 요약, 대화 등 개방형 과제를 모두 포함한다. 모든 실험에서 RLRR은 기존 GRPO(절대 보상) 대비 평균 2~5%p의 정확도 향상과, 특히 학습 후기에도 효과적인 어드밴티지 신호를 유지함을 보였다. 특히, “Effective Sample” 비율이 30% 이하로 떨어지는 상황에서도 HRR이 제공하는 순위 보정 덕분에 학습 효율이 크게 회복되었다. 또한, PRR을 적용한 개방형 과제에서는 점수 스케일 변동이 최소화되어 PPO‑style 클리핑 파라미터에 대한 민감도가 감소했고, 훈련 안정성이 눈에 띄게 개선되었다.

종합하면, 본 논문은 절대 점수에 의존하는 기존 그룹 기반 RL의 구조적 한계를 명확히 규명하고, 상대 순위 기반 보상 체계와 이를 지원하는 Ranking RM을 제시함으로써, 보상 희소성·불안정성을 동시에 해결한다. 제안된 방법은 기존 GRPO와 호환 가능하며, 향후 LLM 정렬·정책 최적화 전반에 적용될 수 있는 일반적인 프레임워크로 자리매김할 가능성이 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기