MixGRPO 혼합 ODE SDE 로 흐름 기반 GRPO 효율 극대화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MixGRPO는 흐름 매칭 모델에 SDE와 ODE를 혼합한 샘플링 전략을 도입해, 일정 구간만 SDE로 샘플링하고 나머지는 ODE로 처리한다. 슬라이딩 윈도우를 이용해 최적화 대상 타임스텝을 점진적으로 이동시켜 연산량을 절감하고, 고차 ODE 솔버를 활용해 학습 속도를 50% 이상, MixGRPO‑Flash 버전에서는 71%까지 단축한다. 실험 결과 인간 선호 정렬에서 기존 DanceGRPO보다 높은 점수를 기록한다.

상세 분석

본 논문은 인간 피드백을 반영한 이미지 생성에서 흐름 기반 확률 모델(Flow‑GRPO, DanceGRPO)의 핵심 병목인 전 단계에 걸친 SDE 샘플링과 정책 최적화를 분석한다. 기존 방법은 전체 T 단계에 대해 두 정책(πθold, πθ)을 모두 샘플링하고, GRPO를 적용해 정책 비율 r_t을 계산한다. 이는 (1) 전 단계에 대한 완전한 샘플링으로 NFE(함수 평가 횟수)가 크게 증가하고, (2) 초기 고노이즈 단계와 후기 저노이즈 단계가 동일한 가중치로 최적화돼 그래디언트가 서로 상충한다는 문제를 야기한다.

MixGRPO는 이러한 문제를 “시간 구간 S =

MixGRPO 혼합 ODE SDE 로 흐름 기반 GRPO 효율 극대화

초록

상세 분석

댓글 및 학술 토론

의견 남기기