이미지 디퓨전 프리뷰와 일관성 솔버
초록
이미지 디퓨전 모델의 느린 추론을 해결하기 위해 저스텝 샘플링으로 빠른 프리뷰를 제공하고, 최종 고품질 이미지는 필요 시 전체 스텝으로 재생성하는 ‘Diffusion Preview’ 파라다임을 제안한다. 기존 가속 방법이 품질·일관성에서 한계를 보이는 점을 보완하기 위해, 일반 선형 다중단계 방법을 기반으로 강화학습으로 최적화된 가벼운 고차 솔버 ‘ConsistencySolver’를 설계하였다. 실험에서 47% 적은 스텝으로 DPM‑Solver 수준의 FID를 달성하고, 사용자 조사에서는 인터랙션 시간을 절반 수준으로 감소시켰다.
상세 분석
본 논문은 디퓨전 모델의 샘플링 효율성을 크게 향상시키는 두 단계 워크플로우, 즉 ‘프리뷰 단계’와 ‘리파인 단계’를 도입한다. 프리뷰 단계에서는 제한된 스텝(예: 10~20스텝)만 사용해 빠르게 이미지 초안을 생성하고, 사용자는 이를 기반으로 프롬프트 수정이나 시드 교체를 반복한다. 만족스러운 프리뷰가 확보되면 동일한 초기 조건을 그대로 유지한 채 전체 스텝(예: 1000스텝) 샘플링을 수행해 최종 고품질 이미지를 얻는다. 이때 핵심 요구사항은(1) 프리뷰와 최종 결과 간의 시각적·구조적 일관성, (2) 최소 연산 비용, (3) 프리뷰 자체의 충분한 품질이다.
기존 가속 기법은 크게 두 갈래로 나뉜다. 첫 번째는 훈련 없이 ODE 솔버를 설계하는 방법으로, 이들은 이론적 가정(예: 노이즈 예측이 선형적으로 변한다) 하에 고정된 계수를 사용한다. 그러나 실제 디퓨전 모델은 복잡한 비선형성을 내포하고 있어 저스텝에서 품질 저하와 일관성 손실이 빈번하다. 두 번째는 모델 자체를 재학습하거나 distillation을 수행해 스텝 수를 줄이는 접근법이다. 이들은 높은 품질을 얻을 수 있지만, 모델 파라미터를 변경함으로써 PF‑ODE가 보장하는 deterministic mapping이 깨지고, 재학습 비용이 크게 증가한다.
‘ConsistencySolver’는 이러한 한계를 극복하기 위해 학습 가능한 고차 다중단계 솔버를 제안한다. 기본 아이디어는 전통적인 Linear Multistep Method(LMM)의 계수를 고정하지 않고, 현재와 다음 타임스텝(t_i, t_{i+1})을 입력으로 하는 경량 MLP가 동적으로 예측하도록 하는 것이다. 이렇게 하면 각 구간마다 최적의 가중치를 할당해 노이즈 예측 ϵ_i들의 선형 결합을 통해 y_{t_{i+1}}를 업데이트한다. 수식 (5)‑(6)에서 볼 수 있듯, y는 x·α 변환된 상태이며, n=σ/α 로 정의된 스케일을 이용해 단계 간 차이를 조정한다.
솔버 파라미터 θ는 강화학습 프레임워크, 구체적으로 Proximal Policy Optimization(PPO)을 사용해 최적화된다. 학습 과정은 사전 생성된 (프롬프트, 시드, 전체‑스텝 기준 이미지) 삼중항 데이터셋을 활용한다. 각 에피소드에서 K‑스텝 프리뷰를 수행하고, 최종 이미지와 기준 이미지 간의 구조·시멘틱 유사도(Depth, Segmentation, DINO 등)를 보상 R으로 정의한다. PPO는 이 보상을 최대화하도록 정책 네트워크 f_θ를 업데이트한다. 보상은 정규화된 advantage 형태로 설계돼 학습 안정성을 높인다.
이론적 측면에서 논문은 기존 LMM을 PF‑ODE에 맞게 세 가지 제약을 두었다. 첫째, PF‑ODE가 비강성(smooth) 특성을 가지므로 explicit 형태만 사용한다( w₀=0 ). 둘째, 최신 상태 y_{t_i}만을 기준점으로 삼아 메모리 사용을 최소화한다( μ₀=1, μ_{j≥1}=0 ). 셋째, 타임스텝에 조건화된 가중치를 도입해 고정 계수의 한계를 극복한다. 이러한 설계는 기존 고정‑계수 솔버가 갖는 근사 오차를 크게 감소시키며, 특히 저스텝 상황에서 프리뷰와 최종 이미지 간의 **일관성(consistency)**을 보장한다.
실험 결과는 두 가지 축에서 우수성을 입증한다. 정량적으로는 FID, IS, LPIPS 등 표준 메트릭에서 DPM‑Solver 대비 47% 적은 스텝으로 동등하거나 더 나은 성능을 기록했다. 특히 10‑스텝 설정에서 FID가 30.2→27.8로 개선되었으며, distillation 기반 베이스라인보다 일관성 점수(Similarity)에서 평균 12% 상승했다. 정성적으로는 사용자 스터디에서 프리뷰‑리파인 워크플로우가 전체 인터랙션 시간을 평균 48% 단축시켰으며, 사용자는 프리뷰 이미지가 최종 결과와 높은 유사성을 보인다고 평가했다.
추가적인 장점으로는 모델 무변경이라는 점이다. 기존 디퓨전 모델을 그대로 사용하면서 솔버만 교체하면 되므로, 다양한 사전 학습 모델(Stable Diffusion, Imagen 등)에 바로 적용 가능하다. 또한, 솔버가 경량 MLP이기 때문에 추론 시 추가 연산량이 미미하고, 모바일·임베디드 환경에서도 실시간 프리뷰가 가능하다.
전체적으로 본 논문은 디퓨전 모델의 인터랙티브 활용을 위한 실용적 패러다임을 제시하고, 고차 다중단계 솔버와 강화학습 기반 최적화를 결합함으로써 품질·효율·일관성을 동시에 달성한 점이 큰 의의다. 향후 연구에서는 (1) 다양한 시각·텍스트 멀티모달 프리뷰, (2) 사용자 피드백을 직접 보상에 반영하는 온라인 RL, (3) 더 높은 차수의 LMM 및 implicit 솔버 탐색 등을 통해 프리뷰‑리파인 워크플로우를 확장할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기