루브릭 기반 보상 모델링을 위한 교대형 강화학습
초록
루브릭-ARM은 루브릭 생성기와 판단자를 동시에 학습시키는 교대형 강화학습 프레임워크이다. 루브릭을 잠재 행동으로 취급해 선호 정확도를 최대화하고, 판별기와 생성기의 업데이트를 번갈아 수행함으로써 학습 불안정을 완화한다. 이론적 변분 분석과 실험 결과는 교대 스케줄이 그래디언트 분산을 감소시키고, 비검증 영역에서 기존 방법들을 능가한다는 것을 보여준다.
상세 분석
본 논문은 비검증 가능한 도메인(예: 창작 글쓰기, 개방형 지시 수행)에서 기존 스칼라 보상 모델이 갖는 표현력 한계를 극복하기 위해 루브릭-ARM(Rubric‑ARM)이라는 새로운 프레임워크를 제안한다. 핵심 아이디어는 루브릭 생성기 π_r와 판단자 π_j를 각각 정책으로 보고, 두 정책을 동시에 최적화하는 대신 교대형 강화학습(Alternating RL)으로 학습 과정을 분리한다는 점이다. 이렇게 하면 루브릭이 판별기의 학습 목표에 급격히 변하는 ‘비정상성(non‑stationarity)’ 문제를 완화할 수 있다.
이론적 분석에서는 두 가지 학습 전략을 비교한다. 전략 A는 판별기 학습 시 고정된 루브릭을 재사용함으로써 루브릭 간 변동성을 없애고, 판별기의 이산 분류 불확실성만이 그래디언트 분산에 기여한다는 식(17)을 도출한다. 전략 B는 루브릭 생성기 학습 시 고정된 판별기를 사용하지만, 여기서는 루브릭 자체의 확률적 변동성과 판별기의 정확도 p(r) 사이의 상호작용이 추가적인 분산 항(I)·(II)으로 나타난다. 특히 (I) 항은 고차원 텍스트 루브릭의 기울기 ‖u_r‖²에 의해 확대되는 알레아터리 노이즈를 의미하고, (II) 항은 서로 다른 루브릭이 동일한 프롬프트에 대해 일관되지 않을 때 발생하는 최적화 난이도를 포착한다. 이러한 분석을 통해 저자들은 “판별기 → 루브릭” 순서로 교대 학습을 진행하는 것이 전체 변분을 최소화하고 수렴 속도를 높인다는 결론을 얻는다.
실험 설계는 크게 두 단계로 나뉜다. 1) SFT(슈퍼바이즈드 파인튜닝) 단계에서 공개 데이터셋(UltraFeedback, SkyWork 등)을 이용해 초기 루브릭 생성기와 판단자를 각각 텍스트 생성 및 판단 능력으로 워밍업한다. 2) 교대형 RL 단계에서는 GRPO(Generalized Reward‑Policy Optimization) 알고리즘을 적용해 판별기와 루브릭을 번갈아 업데이트한다. 판별기 업데이트 시에는 미리 샘플링된 루브릭을 캐시해 비용을 절감하고, 루브릭 업데이트 시에는 단일 그리디 디코딩을 통해 하나의 판단 트랙을 얻어 보상 R_r=I
댓글 및 학술 토론
Loading comments...
의견 남기기