조건부 확산 모델의 품질을 좌우하는 무조건 사전, 베이스 모델 교체만으로 크게 향상

조건부 확산 모델의 품질을 좌우하는 무조건 사전, 베이스 모델 교체만으로 크게 향상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Classifier‑Free Guidance(CFG) 기반 조건부 확산 모델을 미세조정할 때, 무조건(noise) 예측이 크게 악화되는 문제를 지적한다. 베이스 모델이 보유한 풍부한 무조건 사전을 그대로 활용해, 미세조정 모델의 무조건 예측을 베이스 모델의 예측으로 대체하면 조건부 생성 품질이 크게 개선됨을 실험적으로 입증한다. 또한, 베이스 모델이 반드시 동일할 필요 없이 다른 고성능 무조건 모델을 사용해도 동일한 효과를 얻을 수 있음을 보여준다.

상세 분석

CFG는 조건부와 무조건부 두 가지 노이즈 예측을 하나의 네트워크에 학습시켜, 샘플링 단계에서 ϵ (γ) = ϵ∅ + γ(ϵc − ϵ∅) 로 결합한다. 이때 무조건부 예측 ϵ∅는 모델이 학습 과정에서 조건을 일정 확률(보통 5‑20%)만큼 드롭아웃하면서 얻어지므로, 모델 용량이 제한된 상황에서는 무조건부 신호가 충분히 학습되지 못한다. 특히, 베이스 모델을 텍스트‑이미지 생성에 최적화한 뒤 특정 도메인(예: 카메라 포즈, 레퍼런스 이미지)으로 미세조정하면, 무조건부 사전이 크게 퇴화한다. 논문은 이러한 퇴화가 조건부 생성 품질 저하의 주요 원인임을, 무조건부 사전이 p(xₜ) 를 근사하는데 오류를 도입하고, 이는 p(c|xₜ) ∝ p(xₜ|c)p(xₜ)⁻¹ 에까지 영향을 미쳐 최종 샘플이 흐릿하거나 의미를 잃게 만든다고 분석한다.

핵심 아이디어는 “무조건부 사전은 별도로 유지한다”는 점이다. 베이스 모델 ψ가 제공하는 무조건부 예측 ϵψ(xₜ,∅) 를 그대로 사용하고, 미세조정 모델 θ의 조건부 예측 ϵθ(xₜ,c) 와 결합하면, 새로운 CFG 노이즈는 ϵ(γ)θ,ψ = ϵψ∅ + γ(ϵθc − ϵψ∅) 로 정의된다. 이 식은 기존 CFG와 구조는 동일하지만, 무조건부 부분만 교체한다는 점에서 구현이 매우 간단하고, 추가 학습 없이 즉시 적용 가능하다.

실험에서는 Stable Diffusion v1.4를 베이스로 사용한 Zero‑1‑to‑3, Versatile Diffusion, InstructPix2Pix, DiT, DynamiCrafter 등 다양한 최신 조건부 모델을 대상으로 정량적 지표(FID, CLIP‑Score 등)와 정성적 이미지·비디오 샘플을 비교하였다. 모든 경우에서 무조건부 교체만으로 FID가 평균 10‑20% 개선되고, 텍스트·이미지 일치도 역시 상승했다. 특히, 베이스 모델이 반드시 동일할 필요가 없으며, SD2.1이나 PixArt‑α와 같은 최신 무조건 모델을 활용해도 동일하거나 더 큰 성능 향상이 관찰되었다. 이는 무조건부 사전이 모델 아키텍처와 무관하게 “좋은” 확률 분포를 제공하면, 조건부 모델의 가이드 효율이 크게 올라간다는 중요한 통찰을 제공한다.

또한, 기존 연구인 Autoguidance와 Diffusion Soup 등과 비교했을 때, 본 방법은 조건이 서로 다른 두 모델(베이스와 미세조정 모델)의 노이즈를 결합한다는 점에서 차별화된다. 이는 무조건부 사전이 퇴화된 경우에만 적용되는 “보정” 전략으로, 모델 병합이나 추가 파라미터 튜닝 없이도 즉시 실용적인 품질 향상을 얻을 수 있다.

요약하면, 논문은 (1) 미세조정 시 무조건부 예측이 크게 약화되는 현상을 정량·정성적으로 입증하고, (2) 베이스 혹은 다른 고성능 무조건 모델의 사전을 그대로 재사용함으로써 조건부 생성 품질을 크게 개선하는 간단하면서도 효과적인 해결책을 제시한다. 이는 향후 대규모 확산 모델을 다양한 도메인에 빠르게 파인튜닝하고자 할 때, 무조건부 사전 유지 전략을 기본 설계 원칙으로 채택해야 함을 시사한다.


댓글 및 학술 토론

Loading comments...

의견 남기기