두 번 생각하는 보상 모델: 브랜치‑앤‑리씽 (BR‑RM)

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

BR‑RM은 보상 모델을 두 단계로 구성해 “두 번 생각” 원리를 적용한다. 첫 번째 턴에서는 입력에 가장 중요한 평가 차원을 몇 개 선택하고 간략한 가설을 제시한다. 두 번째 턴에서는 선택된 차원에 초점을 맞춰 재검토하고 최종 점수를 산출한다. GRPO 기반 강화학습으로 학습하며, 기존 단일 스칼라 RM이 보이는 판단 확산(judgment diffusion)을 완화하고 미세 오류 탐지 능력을 크게 향상시킨다. 세 가지 벤치마크에서 최첨단 성능을 기록한다.

상세 분석

BR‑RM은 기존 RM이 한 번에 모든 품질 차원을 압축해 스칼라 점수를 내는 구조적 한계를 “판단 확산”이라는 용어로 정의하고, 이를 해결하기 위해 두 차례의 생성 과정을 도입한다. 첫 번째 턴(Adaptive Branching)에서는 사전 정의된 9개의 평가 차원 중 인스턴스에 가장 위험한 2~3개를 선택하도록 모델을 강제한다. 이때 선택된 차원과 함께 각 응답에 대한 초벌 분석(α₁, α₂)을 생성한다. 차원 선택은 모델이 입력을 빠르게 스캔해 위험 신호를 포착하도록 하여, 전체 토큰 예산을 무의미한 기준에 흩뿌리는 것을 방지한다. 두 번째 턴(Branch‑Conditioned Rethinking)에서는 첫 턴에서 도출된 차원과 가설을 조건으로 삼아, 해당 부분만 집중적으로 재검토한다. 예를 들어 “정보 정확성”이 선택되면 사실 검증을, “안전성”이 선택되면 위험 요소 탐지를 수행한다. 이렇게 조건부 재검토를 통해 얕은 분석을 피하고, 미세한 오류나 논리적 결함을 고감도로 탐지한다.

학습 측면에서는 GRPO(Generalized Reward Policy Optimization)를 사용해 두 턴의 전체 트레이스를 하나의 정책 πθ가 생성하도록 한다. 트레이스 전체에 동일한 이진 보상(정답 여부)과 포맷 검증을 적용해, RLHF 파이프라인에 그대로 끼워넣을 수 있다. 보상은 트레이스별 평균을 기준으로 표준화한 후 토큰마다 동일하게 할당되는 advantage를 이용해 PPO‑style 클리핑 손실과 KL‑penalty를 결합한다.

실험에서는 RewardBench, RM‑Bench, RMB 등 세 가지 공개 벤치마크에서 기존 ReasonRM, GenRM, 전통적 RM을 모두 능가한다. 특히 사실 오류 탐지, 안전성 위반, 코드 정확도 등 미세한 오류에 대한 민감도가 크게 상승했으며, 토큰 사용량도 효율적으로 재분배돼 전체 연산 비용이 크게 증가하지 않았다. Ablation 연구에서는 차원 선택 수를 1~~4개로 변동시켰을 때 최적 성능은 2~~3개 선택 시 나타났으며, GRPO 대신 일반 PPO를 사용할 경우 학습 안정성이 떨어짐을 확인했다.

한계점으로는 차원 후보 집합이 사전에 정의돼야 하며, 새로운 도메인에 적용하려면 해당 도메인에 맞는 차원 설계가 필요하다. 또한 두 턴의 생성 과정이 길어지면서 추론 지연이 증가할 수 있어, 실시간 서비스에선 토큰 예산과 지연을 트레이드‑오프해야 한다. 향후 연구에서는 자동 차원 생성, 멀티‑턴 확장, 그리고 인간 피드백을 활용한 차원 가중치 학습 등이 제안될 수 있다.

두 번 생각하는 보상 모델: 브랜치‑앤‑리씽 (BR‑RM)

초록

상세 분석

댓글 및 학술 토론

의견 남기기