확산 기반 언어 모델을 위한 엔트로피 기반 단계 선택과 단계별 이점 강화 강화학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 확산 언어 모델(DLM)의 생성 과정을 유한 단계 마코프 결정 과정(MDP)으로 정형화하고, 단계별 이점을 이용한 정확한 정책 그래디언트를 도출한다. 엔트로피 기반 단계 선택(EGSPO)과 한 단계 완성 보상으로 추정한 단계별 이점(EGSPO‑SA)을 결합해 계산 효율성을 확보하면서도 편향 없는 RL 업데이트를 가능하게 한다. 코딩·논리 추론 벤치마크에서 기존 확산 기반 RL 방법들을 능가하는 성능을 보이며, 수학적 추론에서도 경쟁력을 유지한다.
상세 분석
이 연구는 확산 언어 모델(DLM)의 특수성을 고려한 최초의 원칙 기반 강화학습 프레임워크를 제시한다. 기존 ARLM에 적용되는 정책 그래디언트는 토큰 단위의 인과적 분해가 가능해 로그우도와 중요도 비율을 손쉽게 계산할 수 있었지만, DLM은 마스크‑언마스크 과정을 통해 다중 토큰을 동시에 복원하므로 시퀀스 전체에 대한 확률을 직접 구하기 어렵다. 저자들은 이를 해결하기 위해 “denoising trajectory”를 시간축을 뒤집은 형태의 MDP로 정의하고, 초기 상태를 완전 마스크(m) 상태, 행동을 현재 마스크 단계에서 복원되는 토큰 집합으로 설정한다. 보상은 최종 단계에서만 주어지며, 이는 기존 RL 목표 J(θ)=E
댓글 및 학술 토론
Loading comments...
의견 남기기