확산 모델 가속을 위한 적응형 흐름 경로 샘플러
초록
A‑FloPS는 사전 학습된 확산 모델의 샘플링 경로를 흐름 매칭 형태로 재파라미터화하고, 선형 드리프트와 잔차를 적응적으로 분해해 시간 변동성을 억제한다. 이를 통해 고차 수치 적분기의 효율을 저‑NFE(함수 평가 횟수) 상황에서도 유지하며, 5단계만으로도 기존 최첨단 훈련‑프리 샘플러보다 낮은 FID와 선명한 이미지를 얻는다.
상세 분석
A‑FloPS는 두 가지 핵심 아이디어에 기반한다. 첫 번째는 확산 모델의 스코어 함수 sθ(x,τ)를 흐름 매칭(FM) 모델의 속도장 v*(x,t)으로 정확히 변환하는 정리(Theorem 1)이다. 이 변환은 στ/ᾱτ가 τ에 대해 단조 증가함을 이용해 τ와 t 사이의 일대일 대응을 보장하고, 기존 확산 모델을 재학습 없이 FM 형태의 매끄러운 궤적으로 바꾼다. 결과적으로 기존 확산 모델이 갖는 불안정한 샘플링 궤적을, FM이 제공하는 시간적 규칙성이 높은 경로로 교체함으로써 ODE 적분의 수치 안정성을 크게 향상시킨다.
두 번째 핵심은 적응형 속도 분해이다. FM ODE dxt/dt = v(x,t)를 λt·xt + (v(x,t)−λt·xt) 형태로 재구성하고, λt를 각 통합 구간에서 잔차의 시간 변화량을 최소화하도록 실시간 추정한다. λt는 구간마다 상수로 가정해 계산 복잡도를 억제하면서도, 잔차가 거의 시간에 대해 평탄해지도록 만든다. 이렇게 평탄화된 잔차는 고차 수치 해석기(예: DPM‑Solver++)가 다항식 근사를 수행할 때 충분한 곡률 정보를 제공받아 정확도가 크게 상승한다. 특히 NFE가 5~10 수준으로 극단적으로 낮은 경우에도, 기존 고차 솔버가 급격히 성능이 떨어지는 현상을 완화한다.
알고리즘적으로는 초기 단계에서 t<t_min(σT/ᾱT에 의해 정의)일 때는 t_min에서의 속도를 고정해 근사하고, 이후에는 τ를 t와 매핑하는 역함수를 통해 적절한 στ, ᾱτ를 얻어 v_tn을 계산한다. 첫 번째 스텝은 단순 Euler 업데이트로 시작하고, 이후 단계에서는 λ(n), a, b 등을 식(12)·(15)·(16)에 따라 구해 고차 보정 항을 적용한다. 이 과정은 기존 스코어 네트워크만을 사용하므로 추가 파라미터 학습이 필요 없으며, 텍스트‑투‑이미지와 같은 대형 조건부 모델에도 바로 적용 가능하다.
실험에서는 ImageNet‑64, CIFAR‑10, 그리고 Stable‑Diffusion 기반 텍스트‑투‑이미지 모델에 A‑FloPS를 적용했으며, NFE=5,6,7 단계에서 모두 기존 최첨단 훈련‑프리 샘플러(DDIM, DPM‑Solver++, UniPC)보다 낮은 FID(≈10%~25% 개선)와 더 높은 인식 정확도(IS)·CLIP‑Score를 기록했다. 특히 5‑step 상황에서 “sharpness”와 “semantic alignment”이 눈에 띄게 향상되었으며, 시각적 예시에서도 경계가 더 뚜렷하고 색채가 풍부했다. 추가적인 ablation에서는 λt를 고정하거나 잔차 평탄화 없이 고차 솔버만 적용했을 때 성능이 급격히 저하되는 것을 확인해, 적응형 분해의 중요성을 실증했다.
한계점으로는 초기 t_min 근처에서 속도 근사가 다소 부정확할 수 있으며, 매우 복잡한 데이터(예: 고해상도 비디오)에서는 λt 추정에 추가적인 정규화가 필요할 가능성이 있다. 또한 현재 구현은 CPU‑GPU 혼합 환경에서 λt 계산이 병목이 될 수 있어, 더 효율적인 행렬 연산 최적화가 요구된다. 그럼에도 불구하고 A‑FloPS는 훈련‑프리 방식 중 가장 일반화 가능하고, 다양한 모델 아키텍처에 적용 가능한 가속 프레임워크로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기