엔트로피 기반 분산 최적화 확산 추론 EVODiff
초록
EVODiff은 확산 모델의 역전파 과정에서 조건부 엔트로피를 최소화하도록 설계된 새로운 추론 방법이다. 조건부 분산을 직접 최적화함으로써 정보 손실을 억제하고, 데이터 예측 파라미터화를 사용해 노이즈 예측보다 더 정확한 복원을 달성한다. 실험 결과, CIFAR‑10, ImageNet‑256, LSUN‑Bedrooms 등에서 기존 SOTA 솔버 대비 FID가 45 % 이상 개선되고, 함수 평가 횟수(NFE)도 크게 감소한다.
상세 분석
본 논문은 확산 모델(DM)의 추론 과정을 정보 이론적 관점에서 재해석한다. 저자들은 역전파 단계가 “조건부 엔트로피(Conditional Entropy)”를 감소시키는 과정이라고 정의하고, 이 감소량이 클수록 샘플이 목표 데이터 분포에 더 빠르게 수렴한다는 가설을 제시한다. 이를 수식적으로 전개하면, 역전파 전이 p(x_t | x_{t+1})를 가우시안으로 근사했을 때 조건부 엔트로피 H(x_t | x_{t+1})는 로그(det Var(x_t | x_{t+1}))에 비례한다는 식(9)이 도출된다. 따라서 조건부 분산을 최소화하면 엔트로피가 직접 감소하고, 이는 곧 재구성 오차(MSE)와 동등한 목표가 된다(식 11).
논문은 두 가지 주요 인사이트를 도출한다. 첫째, 기존의 노이즈 예측(ε‑prediction)보다 데이터 예측(x‑prediction) 파라미터화가 조건부 엔트로피 감소와 재구성 오차 최소화에 더 유리하다. 이는 Theorem 3.4에서 수학적으로 증명되며, 데이터 예측은 직접적으로 데이터 분포를 목표로 하여 “ε → x → x₀” 체인에서 발생하는 오류 전파를 회피한다. 둘째, 조건부 분산을 최적화하는 것이 “reference‑free” 방식으로 전이 오차와 재구성 오차를 동시에 감소시킬 수 있는 실용적인 방법임을 보인다. 기존 ODE‑기반 솔버들은 수치적 정확도에 초점을 맞추었지만, EVODiff은 엔트로피 감소 효율성을 직접 목표함으로써 더 적은 단계(NFE)로 높은 품질의 샘플을 생성한다.
구체적인 알고리즘(Algorithm 1)에서는 각 타임스텝 i에 대해 h_i = κ(t_{i‑1})‑κ(t_i)와 로그 SNR 차이를 이용해 가중치를 조정한다. 기존 Euler 혹은 DDIM 업데이트에 추가로, 조건부 분산 B_θ(t_i)와 스케일링 파라미터 ζ_i, η_i를 동적으로 업데이트하여 엔트로피 감소량을 최대화한다. 이때 ζ_i와 η_i는 식(25)에서 제시된 최적화 조건을 만족하도록 설계되며, 이는 “큰 단계 비율”일수록 엔트로피 감소 효과가 커짐을 보이는 Proposition 3.2와 일치한다.
실험에서는 CIFAR‑10, ImageNet‑256, LSUN‑Bedrooms, CelebA‑64 등 다양한 데이터셋에서 5‑10 NFE 범위 내에서 기존 DPM‑Solver++, UniPC, EDM 등과 비교하였다. 특히 CIFAR‑10에서 10 NFE 시 FID가 5.10에서 2.78로 45.5 % 개선되었으며, ImageNet‑256에서는 고품질 샘플을 얻기 위해 NFE를 20에서 15로 25 % 절감했다. 텍스트‑투‑이미지 실험에서도 시각적 아티팩트가 현저히 감소하는 등, 엔트로피 기반 최적화가 실제 이미지 품질 향상에 기여함을 입증한다.
이러한 결과는 “조건부 엔트로피 감소 = 정보 전달 효율성 향상”이라는 핵심 가설이 실험적으로도 타당함을 보여준다. 또한, 데이터 예측 파라미터화와 조건부 분산 최적화라는 두 축이 결합될 때, 기존 수치 해석 중심의 접근법을 넘어 이론적으로도 견고한 샘플링 메커니즘을 제공한다는 점에서 확산 모델 연구에 중요한 전환점을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기