다양성 확대와 정교한 가지치기로 GRPO 효율 극대화

다양성 확대와 정교한 가지치기로 GRPO 효율 극대화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 그룹 상대 정책 최적화(GRPO)의 핵심 병목인 대규모 샘플 그룹의 계산 비용 문제를 해결하고자, 보상 클러스터링 현상을 발견하고 이를 고분산 샘플 선택(O VF)으로 완화한다. 이후 샘플링 과정 중 잠재 특징 기반으로 불필요한 경로를 조기에 종료하는 동적 프레임워크 Pro‑GRPO를 제안하고, 초기 그룹을 크게 확장한 뒤 단계적으로 고분산 서브셋만 남기는 “Expand‑and‑Prune” 전략을 통해 다양한 확산·플로우 모델에서 성능과 효율을 동시에 향상시켰다.

상세 분석

GRPO는 그룹 내 샘플들의 평균 보상 μ_G와 표준편차 σ_G를 이용해 정규화된 어드밴티지를 계산함으로써 가치 함수 없이도 정책 업데이트를 가능하게 한다(식 5). 그러나 실험적으로 동일 프롬프트에 대해 G = 24 정도의 샘플을 생성하면 대부분의 보상이 μ_G 근처에 몰리는 “보상 클러스터링” 현상이 나타난다. 이는 σ_G가 작아짐에 따라 어드밴티지 A_i ≈ (R_i − μ_G)/σ_G가 거의 0에 수렴하고, 결국 각 샘플이 기여하는 그라디언트 g_i ∝ A_i∇θ log πθ(τ_i)도 사라진다(식 9). 단순 무작위 서브샘플링(k < G)으로는 이 문제를 해소하지 못한다.

이를 극복하기 위해 저자들은 “Optimal Variance Filtering”(OVF)이라는 휴리스틱을 고안했다. OVF는 보상 집합 {R_i}에서 크기 k인 부분집합 K*를 선택할 때, 부분집합 내 보상의 분산 σ²(K) 를 최대화하도록 한다(식 10). 보상 분산을 크게 하면 클러스터링이 완화되고, 고·저 보상 양극단을 동시에 포함하게 되므로 어드밴티지 신호가 강화된다. 실험 결과, OVF를 적용한 k=12 샘플은 전체 G=24 샘플을 사용한 베이스라인보다 높은 PickScore와 GRPO 손실 감소를 보이며, “Less is More” 가설을 입증한다.

하지만 OVF는 사후 필터링 방식이므로, 클러스터링된 경로를 완전히 생성한 뒤에야 버릴 수 있다. 이는 여전히 불필요한 연산 비용을 초래한다. 이를 해결하기 위해 제안된 Pro‑GRPO는 “latent‑feature‑based pruning”을 도입한다. 구체적으로, 각 샘플의 현재 잠재 상태 x_t^(g)를 ODE 기반으로 한 스텝(식 15)으로 최종 시점 T에 근사 투사하고, 디코더와 보상 모델을 통해 프록시 보상 Ř_i를 얻는다. 이후 OVF를 적용해 고분산 서브셋만 남기고 나머지는 조기에 종료한다. 이 과정은 사전 정의된 체크포인트 t_i에서 반복되며, 샘플 수 K_i는 G_max > K_{i+1} > … > K_{final}=K 로 단조 감소한다.

Pro‑GRPO는 두 가지 핵심 장점을 제공한다. 첫째, 불필요한 SDE/ODE 스텝을 생략함으로써 실제 연산량을 최종 서브셋 크기 K에 맞춰 크게 줄인다. 둘째, “Expand‑and‑Prune” 전략을 통해 초기 그룹을 G_max까지 확장함으로써 탐색 다양성을 확보하고, 이후 단계별 OVF로 고분산 경로만 남겨 학습 신호를 강화한다. 이 설계는 메모리와 시간 제약이 있는 환경에서도 대규모 그룹의 탐색 효과를 유지한다는 점에서 기존 GRPO와 비교해 실질적인 효율성을 제공한다.

실험에서는 Stable Diffusion v1.4(확산 기반)와 Stable Diffusion 3.5‑M(플로우 기반) 두 모델에 대해 Flow‑GRPO, Dance‑GRPO 등 기존 RL‑fine‑tuning 기법과 비교하였다. 평가 지표는 DrawBench, HPSv2와 같은 인간 선호 기반 베치 외에도 ImageReward, PickScore, GenEval, Aesthetic Score 등 다양한 정량적 메트릭을 사용했다. Pro‑GRPO는 동일한 GPU·시간 예산 하에 베이스라인 대비 평균 3‑5%p(percentage point) 이상의 점수 향상을 기록했으며, 특히 보상 분산이 크게 증가한 것을 확인했다. 또한, 연산량 기준으로는 전체 샘플링 단계에서 약 40‑60%의 FLOPs 절감 효과를 보였다.

이 논문은 GRPO의 근본적인 한계인 “큰 그룹 → 높은 비용, 작은 그룹 → 불안정” 딜레마를 “다양성 확대 + 동적 가지치기”라는 두 축으로 해결한다는 점에서 의미가 크다. 보상 클러스터링을 정량적으로 분석하고, 고분산 서브셋 선택을 이론적으로 정당화했으며, 실제 모델에 적용 가능한 효율적인 구현 방식을 제시한다. 향후 연구에서는 프록시 보상의 정확도 향상, 체크포인트 최적화, 그리고 텍스트‑투‑이미지 외의 다른 생성 도메인(예: 비디오, 3D)으로의 확장 가능성을 탐색할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기