아크플로우 2단계 텍스트 이미지 생성 혁신
초록
ArcFlow는 기존 확산 모델의 다단계 디노이징 과정을 비선형 흐름으로 정확히 근사하는 새로운 증류 프레임워크이다. 속도와 품질을 동시에 개선하기 위해, 속도장을 연속적인 모멘텀 혼합으로 파라미터화하고, 폐쇄형 해석적 ODE 통합을 적용한다. 경량 LoRA 어댑터만을 미세조정해 5% 이하의 파라미터로 2번의 함수 평가(NFE)만으로 원본 모델 대비 40배 빠른 추론을 달성하며, 이미지 품질은 교사 모델에 근접한다.
상세 분석
ArcFlow는 확산 기반 텍스트‑이미지 생성 모델의 핵심 병목인 다수의 함수 평가(NFE)를 2단계로 축소하면서도 품질 저하를 최소화한다는 목표를 갖는다. 기존 증류 기법은 교사 모델의 연속적인 궤적을 선형 보간으로 근사했으며, 이는 타임스텝 간 속도(velocity)의 급격한 변화—즉, 접선 방향(tangent direction)의 변화를 제대로 포착하지 못해 이미지 디테일 손실을 초래한다. 이를 해결하기 위해 저자들은 “모멘텀 기반 파라미터화”라는 물리학적 개념을 도입한다.
구체적으로, 시점 t에서의 속도장 v(xₜ, t)를 K개의 모드별 기본 속도 v_k(xₜ)와 모멘텀 계수 γ_k(xₜ)로 구성된 혼합 형태로 표현한다. 각 모드는 게이팅 확률 π_k(xₜ)로 가중되며, 이는 확률적 혼합 모델 p_θ(z|xₜ)와 동일한 형태다. 수식 (2)는
v_θ(xₜ, t)=∑_{k=1}^K π_k(xₜ)·v_k(xₜ)·γ_k(xₜ)^{1−t}
와 같이 정의된다. 여기서 γ_k는 시간에 따라 지수적으로 감소하거나 증가하는 스케일을 제공해, 선형 보간이 불가능한 비선형 궤적을 자연스럽게 생성한다.
이 파라미터화는 중요한 정리(Theorem 1)를 통해 K≥N이면 N개의 임의 타임스텝에서 교사의 정확한 속도장을 완벽히 재현할 수 있음을 보인다. 즉, 충분히 많은 모드를 사용하면 교사의 연속적인 흐름을 수학적으로 완전 매칭할 수 있다.
또한, 저자들은 이 혼합 형태가 ODE 해석적 적분이 가능하도록 설계했으며, 이를 통해 “분석적 전이 연산자 Φ”를 도출한다. 식 (4)와 (5)에서 제시된 C(γ, t_s, t_e) 계수는 γ≠1일 때는 (γ^{1−t_e}−γ^{1−t_s})/ln γ, γ=1일 때는 단순히 t_s−t_e가 된다. 이 폐쇄형 해는 각 단계에서 x_{t_e}=x_{t_s}−Φ(…) 로 직접 계산되므로, 수치적 오차 없이 교사의 비선형 흐름을 그대로 전달한다.
학습 측면에서는 “혼합 적분 커리큘럼”을 도입한다. 각 타임스텝 구간
댓글 및 학술 토론
Loading comments...
의견 남기기