회귀 인식 강화학습으로 LLM 평가자를 최적화

본 논문은 대형 언어 모델(LLM)을 “LLM‑as‑a‑Judge”라는 평가자로 활용할 때 발생하는 핵심 문제를 짚고, 이를 해결하기 위한 새로운 강화학습 프레임워크인 REAL(Regression‑Aware Reinforcement Learning)을 제안한다. **배경 및 문제점** LLM‑as‑a‑Judge는 모델이 텍스트에 대해 수치 점수를 매기는 작업으로, 본질적으로 회귀 문제이다. 그러나 기존 RL 기반 포스트‑트레이닝은 0‑1 정확도 보상만을 사용해 예측값 간의 순서·거리 정보를 무시한다. 이로 인해 예측값 4와 1 사이의 차이가 5와 1 사이의 차이와 동일하게 취급돼 Pearson·Spearman 상관계수와 같은 평가 지표가 제대로 최적화되지 않는다. 반면, 최근 회귀‑인식 SFT 방법(RAFT, TRACT)은 손실 함수에 제곱오차를 도입해 순서 정보를 반영하지만, 정적인 지도학습에 머물러 모델이 스스로 생성한 CoT(Chain‑of‑Thought) 경로를 탐색·수정할 메커니즘이 없다. **REAL의 설계** REAL은 두 가지 혁신적인 요소를 결합한다. 첫째, **정책‑의존 회귀 보상**을 정의한다. 보상 함수 r_REAL(θ, x, c) = –(ŷ_θ(x,c) – y*)² + λ·log π_θ(y*|x,c)는 현재 파라미터 θ에 의해 계산되는 예측값 ŷ_θ와 로그 확률을 포함한다. 둘째, 이 보상이 파라미터에 의존한다는 점을 고려해 **일반화된 정책 그라디언트**(Generalized Policy Gradient)를 적용한다. 이 그라디언트는 기존 REINFORCE 식에서 ∇_θ r = 0이라는 가정을 제거하고, 보상의 파라미터 미분을 명시적으로 포함한다. **그라디언트 분해** 일반화된 정책 그라디언트는 두 개의 상호 보완적인 항으로 분해된다. 1. **CoT 탐색 항**: ∇_θ log π_θ(c|x)·r_REAL – 모델이 다양한 추론 경로를 시도하도록 유도한다. 2. **예측 정제 항**: ∇_θ ŷ_θ·(ŷ_θ – y*) – 최종 점수 예측을 회귀 손실에 직접 연결한다. 이러한 구조는 “추론 탐색 + 수치 정확도 정제”라는 두 목표를 하나의 학습 루프에서 동시에 달성하게 만든다. **이론적 근거** 논문은 제 3절에서 Lemma 3.1을 통해 **제곱오차 손실이 Pearson 상관계수를 최적화하는 충분조건**임을 증명한다. 조건부 기대값 μ(x,c)=E

회귀 인식 강화학습으로 LLM 평가자를 최적화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기