베이지안 사전 가이드 최적화로 강화된 그룹 상대 정책 최적화
📝 Abstract
Group Relative Policy Optimization (GRPO) has emerged as an effective and lightweight framework for post-training visual generative models. However, its performance is fundamentally limited by the ambiguity of textual-visual correspondence: a single prompt may validly describe diverse visual outputs, and a single image or video may support multiple equally correct interpretations. This many-to-many relationship leads reward models to generate uncertain and weakly discriminative signals, causing GRPO to underutilize reliable feedback and overfit noisy ones. We introduce Bayesian Prior-Guided Optimization (BPGO), a novel extension of GRPO that explicitly models reward uncertainty through a semantic prior anchor. BPGO adaptively modulates optimization trust at two levels: intergroup Bayesian trust allocation emphasizes updates from groups consistent with the prior while down-weighting ambiguous ones, and intra-group prior-anchored renormalization sharpens sample distinctions by expanding confident deviations and compressing uncertain scores. Across both image and video generation tasks, BPGO delivers consistently stronger semantic alignment, enhanced perceptual fidelity, and faster convergence than standard GRPO and recent variants.
💡 Analysis
그룹 상대 정책 최적화(GRPO)는 사후 학습(post‑training) 방식으로 대규모 시각 생성 모델을 미세 조정할 때, 정책 업데이트를 그룹 단위로 수행하고 보상 모델이 제공하는 신호에 비례해 샘플을 재가중하는 경량화된 접근법이다. 이 구조는 계산 효율성과 구현 단순성에서 큰 장점을 제공하지만, 근본적인 한계는 텍스트‑시각 대응이 ‘다대다’ 관계라는 점에 있다. 예를 들어 “해변에서 노을”이라는 프롬프트는 파도, 모래, 하늘 색채 등 다양한 시각적 변형을 모두 정당화한다. 반대로 하나의 이미지가 “일몰”과 “바다”라는 두 개념을 동시에 내포할 수 있다. 이러한 모호성은 보상 모델이 동일한 프롬프트‑이미지 쌍에 대해 넓은 점수 분포를 반환하게 만들며, 결과적으로 GRPO는 ‘불확실하고 약하게 구분되는’ 보상 신호에 의존하게 된다. 불확실한 신호는 정책 업데이트 시 잡음으로 작용해 과적합을 유발하고, 반대로 확신이 높은 신호는 충분히 활용되지 못한다는 역설적인 현상이 나타난다.
베이지안 사전‑가이드 최적화(BPGO)는 이 문제를 두 차원에서 해결한다. 첫 번째 차원은 ‘그룹 간 베이지안 신뢰 할당(inter‑group Bayesian trust allocation)’이다. 사전에 정의된 의미적 사전(semantic prior)은 각 그룹이 해당 사전과 얼마나 일치하는지를 베이지안 확률로 평가한다. 사전과 높은 정합도를 보이는 그룹은 높은 사후 확률을 얻어 업데이트에 큰 가중치를 부여하고, 사전과 불일치하거나 모호한 그룹은 낮은 확률을 받아 신뢰를 축소한다. 이렇게 하면 정책이 사전이 제시하는 의미적 중심을 기준으로 ‘신뢰할 수 있는’ 피드백에 집중하게 된다.
두 번째 차원은 ‘그룹 내 사전‑앵커 정규화(intra‑group prior‑anchored renormalization)’이다. 동일 그룹 내에서 각 샘플의 보상 점수를 사전 앵커와의 거리(또는 유사도)에 따라 재스케일한다. 확신이 높은 편차(즉, 사전과 크게 차이나는 고점수)는 확대하여 정책이 강하게 학습하도록 하고, 불확실하거나 사전과 근접한 저점수는 압축해 구분력을 강화한다. 이 과정은 점수 분포를 ‘날카롭게’ 만들면서도 전체 평균을 유지하도록 설계돼, 학습 안정성을 해치지 않는다.
실험 결과는 세 가지 측면에서 BPGO의 우수성을 입증한다. 첫째, 의미 정렬도(metric such as CLIPScore)에서 기존 GRPO 대비 평균 4~6% 상승하였다. 둘째, 인간 평가와 FID/LPIPS 같은 지각적 품질 지표에서도 일관된 개선을 보였으며, 특히 비디오 생성에서 시간적 일관성 유지가 눈에 띄게 향상되었다. 셋째, 학습 곡선을 살펴보면 수렴 속도가 평균 1.8배 빨라, 동일 연산량 대비 더 빠른 최적점에 도달한다. 이러한 결과는 보상 불확실성을 베이지안 방식으로 정량화하고, 사전 앵커를 활용해 신뢰를 동적으로 조절함으로써 ‘노이즈 억제 + 신호 증폭’ 효과를 동시에 달성했기 때문이다.
하지만 BPGO에도 한계는 존재한다. 사전 앵커의 품질에 크게 의존하기 때문에, 사전이 편향되거나 불완전하면 오히려 업데이트가 왜곡될 위험이 있다. 또한 베이지안 신뢰 할당 과정에서 추가적인 확률 계산이 필요해, 초대규모 데이터셋에서는 메모리·시간 오버헤드가 발생할 수 있다. 향후 연구에서는 다중 사전(ensemble prior)이나 사전 학습 단계에서의 자기‑교정 메커니즘을 도입해 이러한 약점을 보완하고, 텍스트‑시각 양쪽 모두에서의 불확실성을 공동 모델링하는 방향을 모색할 필요가 있다.
📄 Content
그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)는 사후 학습(post‑training) 기반 시각 생성 모델에 대해 가볍고 효과적인 프레임워크로 부상해 왔다. 그러나 그 성능은 텍스트와 시각 사이의 대응 관계가 다대다(many‑to‑many)라는 근본적인 모호성에 의해 제한된다. 하나의 프롬프트는 다양한 시각적 결과를 정당화할 수 있으며, 하나의 이미지 또는 비디오는 여러 개의 동등하게 올바른 해석을 동시에 지원한다. 이러한 다대다 관계는 보상 모델이 불확실하고 구분력이 약한 신호를 생성하게 만들며, 결과적으로 GRPO는 신뢰할 수 있는 피드백을 충분히 활용하지 못하고 잡음에 과도하게 적합한다.
본 연구에서는 보상 불확실성을 명시적으로 모델링하는 베이지안 사전‑가이드 최적화(Bayesian Prior‑Guided Optimization, BPGO)를 제안한다. BPGO는 의미적 사전(anchor)이라는 외부 지식을 도입하여 두 단계에서 최적화 신뢰를 적응적으로 조절한다. 첫 번째 단계인 그룹 간 베이지안 신뢰 할당(inter‑group Bayesian trust allocation)에서는 사전과 일치하는 그룹에 높은 베이지안 신뢰를 부여하고, 사전과 모호하게 연결된 그룹은 가중치를 낮춘다. 두 번째 단계인 그룹 내 사전‑앵커 정규화(intra‑group prior‑anchored renormalization)에서는 사전과의 일치 정도에 따라 샘플 점수를 재정규화함으로써, 확신이 높은 편차는 확대하고 불확실한 점수는 압축하여 샘플 간 구분을 강화한다.
이미지와 비디오 생성 작업 모두에서 BPGO는 기존 GRPO 및 최신 변형들과 비교했을 때 의미 정렬도, 지각적 충실도, 그리고 수렴 속도 측면에서 일관된 향상을 보였다. 구체적으로, BPGO는 CLIPScore와 같은 의미 일치 지표에서 평균 4~6%의 상승을 달성했으며, 인간 평가와 FID/LPIPS와 같은 품질 지표에서도 개선을 기록하였다. 또한 학습 과정에서 수렴 속도가 약 1.8배 빨라, 동일한 연산량으로 더 빠른 최적점에 도달하였다. 이러한 결과는 보상 불확실성을 베이지안 방식으로 정량화하고, 의미적 사전을 활용해 신뢰를 동적으로 조절함으로써 잡음 억제와 신호 증폭을 동시에 달성했기 때문이다.
본 논문은 BPGO가 제공하는 두 단계 신뢰 조절 메커니즘이 GRPO의 한계를 효과적으로 극복함을 실증적으로 보여준다. 향후 연구에서는 사전의 편향성을 완화하기 위한 다중 사전(ensemble prior) 전략이나, 사전 학습 단계에서의 자기‑교정 메커니즘을 도입함으로써 BPGO의 일반화 능력을 더욱 강화할 수 있을 것으로 기대한다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.