마스크 기반 텍스트 이미지 생성에 강화학습을 접목한 마스크그리포

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 마스크 생성 모델(MGM)을 텍스트‑이미지 생성에 적용하기 위해 강화학습 프레임워크인 GRPO를 도입한다. 핵심은 마스크 해제 과정을 다단계 의사결정 문제로 재정의하고, 새롭게 마스크 해제된 토큰만을 이용한 전이 확률을 설계한다. KL 제약을 제거하고, 단계 축소 및 저품질 샘플 필터링 전략을 추가함으로써 기존 diffusion·autoregressive 기반 방법들을 능가하는 성능을 달성한다.

상세 분석

Mask‑GRPO는 기존 텍스트‑이미지 생성 모델이 주로 diffusion 혹은 autoregressive 구조에 국한된 점을 넘어, masked generative model(MGM)이라는 비교적 새로운 패러다임에 RL을 적용한 최초 시도이다. MGM은 전체 토큰을 동시에 예측하고, confidence가 높은 토큰을 순차적으로 ‘unmask’하는 방식으로 작동한다. 이때 전통적인 AR‑style 전이 확률(모든 마스크 토큰의 확률 곱)은 실제로는 새롭게 unmask된 토큰이 다음 상태를 결정하는 핵심 요소임을 간과한다. 논문은 이를 두 가지 수식으로 구체화한다. 첫 번째(pθ₁)는 새롭게 unmask된 토큰들의 confidence 곱에 더해, 아직 remask된 토큰 중 confidence가 최소값보다 낮은 경우의 확률을 곱해 보다 엄밀한 전이 확률을 정의한다. 두 번째(pθ₂)는 앞선 식을 단순화해 새롭게 unmask된 토큰들의 confidence 곱만을 사용한다. 실험 결과 두 정의 모두 유의미한 성능 향상을 보였으며, pθ₂는 계산 효율성 면에서 장점이 있다.

RL 측면에서는 MDP를 (Yₜ, c) 를 상태, Yₜ₊₁ 을 행동으로 설정하고, 최종 이미지에 대한 CLIP 기반 보상을 사용한다. GRPO는 그룹 단위로 정책을 업데이트하면서 KL 정규화 항을 포함하지만, 저용량(1.3B 파라미터) Show‑o 모델에서는 KL 항이 탐색을 억제한다는 점을 발견하고 β=0으로 설정해 KL 제약을 제거한다. 이는 대형 모델에서 KL이 도움이 되는 기존 연구와 대비되는 흥미로운 결과다.

학습 효율성을 위해 두 가지 ‘축소 전략’을 제안한다. 첫 번째는 전체 T 단계 중 일부(예: 처음 25·마지막 25)만을 사용해 목표 함수를 계산하는 ‘computational reduction’이며, 두 번째는 훈련 시 실제 unmask 단계 수 자체를 감소시키는 ‘unmasking reduction’이다. 특히 후자는 훈련 비용을 크게 낮추면서도 평가 시 전체 단계(예: T=50)를 그대로 적용해 성능 저하를 방지한다.

또한 ‘Vanishing Samples’ 문제—RL 훈련 중 고품질 샘플이 급격히 감소하는 현상—에 대응하기 위해 보상 기반 필터링을 도입한다. 일정 보상 임계값 이하의 샘플을 학습에서 제외함으로써 정책이 저품질 데이터에 의해 오염되는 것을 방지한다.

실험에서는 Show‑o 기반 Mask‑GRPO가 MS‑COCO, Flickr30k 등 표준 T2I 벤치마크에서 FID, IS, CLIPScore 등 주요 지표에서 기존 diffusion·AR 기반 RL 방법들을 앞선다. 인간 선호도 평가에서도 기존 최첨단 모델보다 높은 선호도를 기록한다. Ablation study를 통해 전이 확률 정의, KL 제거, 축소 전략, 샘플 필터링 각각이 성능에 미치는 영향을 정량적으로 분석한다.

결과적으로 이 연구는 (1) MGM에 RL을 성공적으로 적용한 새로운 패러다임을 제시하고, (2) 전이 확률을 새롭게 정의함으로써 MGM 특성에 맞는 정책 학습을 가능하게 했으며, (3) 실용적인 학습 효율성 향상 기법을 통해 대규모 이미지 생성 모델에 대한 RL 적용 가능성을 크게 확장했다는 점에서 학술적·실용적 의의가 크다.

마스크 기반 텍스트 이미지 생성에 강화학습을 접목한 마스크그리포

초록

상세 분석

댓글 및 학술 토론

의견 남기기