밀도 보상으로 열린형 LLM 추론을 강화하는 Grad2Reward

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Grad2Reward는 LLM‑as‑Judge의 내부 연산을 역전파해 토큰별 기여도를 추출하고, 이를 밀도 보상으로 변환한다. 단일 역전파만으로 토큰‑레벨 보상을 얻어 정책을 최적화하며, 초기 정책을 고정된 Judge로 활용하는 자기‑판단 메커니즘을 도입해 외부 고성능 Judge에 대한 의존성을 없앤다. 실험 결과, 기존의 희소 보상 방식보다 학습 효율과 성능이 크게 향상된다.

상세 분석

본 논문은 열린형(Large‑Language‑Model) 과제에서 기존 LLM‑as‑Judge 기반 강화학습이 제공하는 ‘시퀀스‑레벨’ 보상의 희소성 문제를 근본적으로 해결하고자 한다. 핵심 아이디어는 Judge 모델의 순전파 과정에서 생성된 토큰 임베딩에 대한 로그‑우도 기울기(∇e_t log p_judge)를 계산하고, 이를 토큰 임베딩과 내적하여 토큰‑별 기여도 b_t를 얻는 것이다. 이 기울기‑임베딩 내적은 각 토큰이 최종 판단(z) 에 얼마나 영향을 미쳤는지를 1차 근사로 나타내며, 논문은 이를 ‘Gradient × Embedding’ 방식이라 명명한다.

b_t는 스케일 차이가 크므로 소프트맥스(온도 τ)로 정규화해 α_t를 구하고, 전체 시퀀스 보상 r(x,o)와 곱해 토큰‑레벨 보상 r_t=α_t·r(x,o)를 산출한다. 이렇게 하면 원래의 이진 판단을 토큰‑단위의 연속적인 신호로 변환할 수 있다. 이 과정은 단일 역전파만 필요하므로 계산 비용이 낮으며, Judge 모델을 추가로 파인튜닝할 필요가 없다는 장점이 있다.

또한 논문은 ‘Self‑Judging’ 메커니즘을 제안한다. 초기 정책을 그대로 복제한 Judge를 고정(freeze)하고, 정책만을 업데이트한다. 이는 LLM이 생성보다 판별에 더 강한 특성을 가진다는 최근 연구 결과와 일치한다. 고정된 Judge는 학습 전반에 걸쳐 일관된 피드백을 제공하므로, 정책이 자체적인 판단 기준을 점진적으로 개선하도록 유도한다. 외부의 더 큰 모델을 사용하지 않음으로써 비용과 데이터 의존성을 크게 절감한다.

보상 설계에 대한 이론적 분석도 제공한다. 로그‑우도 함수 F(e₁,…,e_T)를 1차 테일러 전개하면, ∑_t g_tᵀ e_t가 전체 보상의 변화량을 근사한다는 식을 도출한다. 이는 토큰‑레벨 기여도가 시퀀스‑레벨 보상의 선형 분해와 동일함을 의미한다. 따라서 α_t를 이용한 보상 분배는 합리적인 베이스라인(예: 제로 임베딩) 대비 차이를 정량화하는 형태가 된다.

정책 최적화 단계에서는 기존 GRPO를 토큰‑레벨로 확장한 ‘Token‑level GRPO’를 사용한다. 각 토큰에 대해 미래 보상의 누적값 R_{i,t}를 계산하고, 그룹 내 평균·표준편차로 정규화한 어드밴티지를 구한다. 이렇게 하면 토큰마다 다른 신호를 전달받아 미세한 조정이 가능해진다.

실험에서는 수학·프로그래밍 같은 검증 가능한 도메인뿐 아니라 의료 상담, 창의적 글쓰기 등 주관적 평가가 필요한 열린형 과제에서도 기존 희소 보상 기반 방법보다 빠른 수렴과 높은 성능을 기록한다. 특히, 별도의 프로세스 보상 모델(PRM)을 학습하지 않고도 동일하거나 더 나은 결과를 얻어, PRM 기반 접근법 대비 효율성과 일반화 능력이 뛰어나다는 점을 강조한다.

전체적으로 Grad2Reward는 Judge 내부의 미세 신호를 활용해 토큰‑레벨 밀도 보상을 자동으로 생성하고, 자기‑판단 메커니즘을 통해 외부 고성능 Judge에 대한 의존성을 없앰으로써 열린형 LLM 추론의 학습 효율과 성능을 크게 향상시키는 혁신적인 프레임워크라 할 수 있다.

밀도 보상으로 열린형 LLM 추론을 강화하는 Grad2Reward

초록

상세 분석

댓글 및 학술 토론

의견 남기기