DreamVAR 시각 자동회귀 모델을 활용한 고품질 주제 기반 이미지 생성
초록
DreamVAR는 시각 자동회귀(VAR) 모델에 다중 스케일 주제 특징을 미리 채워 넣고, 강화학습(GRPO)으로 주제 일관성과 텍스트 정합성을 동시에 최적화한 주제‑구동 이미지 생성 프레임워크이다. 기존 diffusion 기반 방법보다 주제 보존력이 뛰어나며, 2 B 파라미터 규모에도 불구하고 빠른 학습·추론 속도를 제공한다.
상세 분석
본 논문은 주제‑구동 이미지 생성 분야에서 diffusion 모델이 주류를 이루고 있는 현 상황을 비판적으로 검토하고, 시각 자동회귀(Visual Autoregressive, VAR) 모델이 갖는 “다음‑스케일 예측” 구조와 효율적인 추론 특성을 재조명한다. VAR 모델은 기존의 raster‑scan 방식보다 토큰 순서를 스케일 단위로 진행함으로써 연산 복잡도를 크게 낮추고, 텍스트·이미지·주제 등 다양한 모달리티를 하나의 통합 아키텍처에 삽입하기 용이하다는 장점을 가진다. 그러나 다중 스케일 조건을 단순히 이미지 토큰 사이에 삽입(interleaving)하는 방식은 학습 시 teacher‑forcing에 의해 정답 히스토리를 사용하고, 추론 시에는 자체 생성 토큰에 의존하게 되는 “train‑test discrepancy”를 야기한다. 이 격차는 특히 주제 특징이 여러 스케일에 걸쳐 존재할 때 증폭되어, 결과 이미지의 주제 일관성이 크게 저하된다.
DreamVAR는 이러한 문제를 해결하기 위해 “조건 토큰 사전 채우기(pre‑filling)” 전략을 도입한다. 구체적으로, 사전 학습된 텍스트‑투‑이미지 VAR 모델(Infinity)의 시각 토크나이저를 이용해 참조 주제의 다중 스케일 특징 I_s = (I_s1,…,I_sK)를 추출하고, 이를 텍스트 토큰 C_t 앞에 왼쪽 패딩한다. 이후 모델은 (I_s1,…,I_sK, C_t, I_1,…,I_K) 순서로 토큰을 처리하며, 각 스케일 k에서 I_k를 예측할 때는 이전 스케일 토큰(I_1…I_{k‑1})과 완전한 주제·텍스트 조건에만 의존한다. 이렇게 하면 조건 토큰이 고정된 상태로 남아, 학습‑추론 간의 조건 분포 차이가 사라지고, 스케일 간 의존성이 단순화된다.
조건부 토큰을 사전 채우는 설계와 별개로, 논문은 주제 일관성과 텍스트 정합성을 동시에 강화하기 위해 강화학습을 적용한다. 여기서는 Group Relative Policy Optimization(GRPO)을 채택해, 한 번에 G개의 이미지 샘플을 생성하고 각각에 두 가지 보상 — Subject Consistency Reward(R_I)와 Semantic Alignment Reward(R_S) — 을 부여한다. R_I는 CLIP‑V(또는 DINO) 기반 시각 특징 공간에서 생성 이미지와 참조 주제 간 코사인 유사도로 측정되며, 배경을 최소화하기 위해 사전 세그멘테이션을 수행한다. R_S는 텍스트 프롬프트와 생성 이미지 간 CLIP 텍스트‑이미지 정합성을 평가한다. 두 보상의 가중합 α·R_I + γ·R_S가 최종 보상이 되며, α와 γ는 실험을 통해 1.0·10⁻¹와 2.0·10⁻¹ 정도가 최적으로 도출된다. GRPO는 현재 정책과 고정된 레퍼런스 정책 간 KL 발산을 정규화 항으로 포함해, 과도한 정책 변동을 억제한다.
학습 절차는 세 단계로 구성된다. ① Task Adaptation 단계에서는 Subject‑200K 데이터셋을 이용해 전체 파라미터를 fine‑tune해 주제‑구동 능력을 부여한다. ② Supervised Fine‑Tuning 단계에서는 고품질 DreamSubject‑14K 데이터를 사용해 이미지 디테일을 보강한다. ③ Reinforcement Learning 단계에서는 위에서 설명한 GRPO를 적용해 주제 일관성과 텍스트 정합성을 동시에 최적화한다.
실험 결과는 Dreambench 벤치마크에서 DINO, CLIP‑I(주제 일관성)와 CLIP‑T(텍스트 정합성) 세 지표를 모두 제시한다. DreamVAR는 2 B 파라미터 규모에도 불구하고, 가장 큰 DINO(0.764)와 CLIP‑I(0.838) 점수를 기록했으며, CLIP‑T(0.310)에서도 경쟁 모델들과 동등하거나 약간 앞선 성능을 보였다. 특히, 동일 데이터(UNO*)를 사용한 12 B 모델 대비 파라미터 효율성이 뛰어나며, 학습 속도는 1.75배, 추론 시간은 17초에서 2초로 크게 단축된다.
Ablation 연구에서는 (1) 보상 조합 효과: R_I만 사용할 경우 주제 복제에 치우쳐 CLIP‑T가 감소하지만, R_S를 함께 사용하면 균형 잡힌 성능을 얻는다. (2) α·γ 값 변화: α=1.0, γ=2.0이 최적. (3) 다중 스케일 vs. 단일 스케일 특징: 다중 스케일이 DINO/CLIP‑I를 각각 0.744→0.764, 0.830→0.838로 향상. (4) 사전 채우기 vs. 인터리브: 사전 채우기가 인터리브보다 0.744→0.764 (DINO) 정도의 이득을 제공한다.
결론적으로 DreamVAR는 VAR 모델의 효율성을 유지하면서, 다중 스케일 주제 특징을 효과적으로 활용하고, 강화학습을 통해 주제 보존과 텍스트 정합을 동시에 최적화한다는 점에서 주제‑구동 이미지 생성 분야에 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기