에너지 기반 테스트 시점 스케일링으로 훈련 없이 RL 정렬

에너지 기반 테스트 시점 스케일링으로 훈련 없이 RL 정렬
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ETS는 마스크 언어 모델링(MLM)에서 최적 RL 정책을 직접 샘플링하기 위한 훈련‑무료 추론 기법이다. 기존 RLHF가 요구하는 비용·불안정성을 없애고, 레퍼런스 모델과 보상에 기반한 에너지 항을 온라인 몬테카를로로 추정한다. 중요도 샘플링과 최신 가속 프레임워크를 결합해 지연 시간을 크게 줄이면서도 샘플 품질을 보장한다. 실험은 자동회귀 모델과 확산 언어 모델 모두에서 추론 품질을 향상시켰다.

상세 분석

본 논문은 대규모 언어 모델(LLM)의 후처리 정렬 단계에서 흔히 사용되는 강화학습(RLHF) 접근법이 갖는 “고비용·고불안정·하이퍼파라미터 민감도” 문제를 근본적으로 회피하고자 한다. 핵심 아이디어는 KL‑정규화된 RL 목표식이 닫힌 형태의 최적 정책 분포
(p^*(x|y) \propto p_{\text{ref}}(x|y)\exp\big(r(y,x)/\lambda\big))
를 갖는다는 사실을 이용해, 학습 없이 이 분포에서 직접 샘플링하는 방법을 설계하는 것이다.

이를 위해 저자들은 마스크 언어 모델링(MLM) 프레임워크를 일반화하였다. MLM은 토큰 마스크 순서를 정의함으로써 자동회귀 모델(ARMs)과 확산 언어 모델(DLMs) 모두를 동일한 역마코프 체인으로 기술한다. 논문에서는 각 단계 (t)에서 이전 단계 (s<t)로 전이할 확률을
(p_{\text{ref}}(x_s|x_t,y)\times \underbrace{E_{p_{\text{ref}}(x_0|y,x_s)}!\big


댓글 및 학술 토론

Loading comments...

의견 남기기