디퓨전 언어 모델 강화학습 안정화 방안

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존의 그룹 상대 정책 최적화(GRPO)를 디퓨전 대형 언어 모델(dLLM)에 직접 적용했을 때 발생하는 보상 붕괴 현상을 분석하고, 중요도 비율 추정의 고노이즈와 GRPO의 클리핑·정규화 설계 결함이 불안정을 야기한다는 점을 밝혀낸다. 이를 해결하기 위해 무조건 클리핑과 자체 정규화를 결합한 StableDRL을 제안하며, 전체‑파라미터 RL 학습을 1,000 스텝 이상 안정적으로 수행하고, 다양한 추론 벤치마크에서 최첨단 성능을 달성한다.

상세 분석

GRPO는 행동 정책과 목표 정책 사이의 중요도 비율 ρ = πθ/πθold 를 이용해 그룹 내 평균 보상을 기준으로 정책을 업데이트한다. AR 모델에서는 시퀀스 확률이 정확히 계산되므로 ρ가 정확히 추정되지만, 디퓨전 언어 모델에서는 마스킹 과정이 복합적인 마코프 체인을 형성해 전체 시퀀스 확률을 직접 구할 수 없고, 대신 ELBO 혹은 평균장 근사치를 통해 추정한다. 이러한 추정은 본질적으로 높은 분산과 장측면(heavy‑tail) 잡음을 포함한다. 논문은 이 잡음이 두 가지 메커니즘을 통해 불안정을 증폭시킨다고 주장한다. 첫째, GRPO의 조건부 클리핑은 “advantage < 0 & ρ > 1+ε” 상황에서 클리핑을 해제하고 ρ·A 형태의 큰 그래디언트를 허용한다. 디퓨전 모델에서는 ρ가 실제 정책 차이가 아니라 추정 잡음에 의해 크게 변동할 수 있어, 부정적인 advantage에도 불구하고 폭발적인 그래디언트 스파이크가 발생한다. 둘째, GRPO는 고정된 그룹 크기 G 로 정규화하는데, 잡음이 큰 ρ들의 합이 급격히 변하면 정규화 계수가 급등·급락하면서 그래디언트 크기가 크게 흔들린다. 이러한 두 현상이 상호작용해 “잡음 → 그래디언트 스파이크 → 정책 드리프트 → 잡음 증가”라는 자기 강화 루프를 만든다. 논문은 이를 수학적으로 레마와 정리를 통해 증명하고, 실험적으로도 ρ가 10⁵ 수준까지 폭발하는 경우를 관찰한다.
StableDRL은 이 루프를 근본적으로 차단한다. 무조건 클리핑은 ρ를 언제나

디퓨전 언어 모델 강화학습 안정화 방안

초록

상세 분석

댓글 및 학술 토론

의견 남기기