노이즈 스케줄링과 시간 이산화의 근본 원리

노이즈 스케줄링과 시간 이산화의 근본 원리
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다변량 가우시안 소스와 결정적 역샘플링 과정을 가정하여, 노이즈 스케줄링과 시간 이산화가 생성 확산 모델의 KL 발산에 미치는 영향을 정량적으로 분석한다. Euler‑Maclaurin 전개와 변분법을 이용해 최적의 노이즈 스케줄이 탄젠트 형태임을 보이고, 사전 학습된 모델에 대해 저비용으로 최적의 시간 이산화 전략을 선택하는 방법을 제시한다. 실험 결과, 제안 방법이 제한된 함수 평가(NFE) 예산 하에서 기존 베이스라인 및 탐색 기반 전략보다 일관되게 우수함을 확인하였다.

상세 분석

본 연구는 확산 모델(DM)의 두 핵심 설계 요소인 노이즈 스케줄링과 시간 이산화 전략을 이론적으로 연결시키는 데 초점을 맞춘다. 먼저, Cramér‑Rao 경계와 Girsanov 정리를 활용해 연속 시간 역SDE와 이산화된 역SDE 사이의 KL 발산이 가우시안 경우에 가장 낮은 하한을 갖는다는 정리를 제시한다. 이는 일반적인 데이터 분포에 대해 가우시안 모델을 분석 대상으로 삼아도 최적 설계에 대한 의미 있는 정보를 제공한다는 강력한 근거가 된다.

가우시안 소스를 전제로 하면, 전방 확산 과정 (x_t = \alpha_t x_0 + \sigma_t \epsilon) 가 선형이므로 역샘플링 과정 역시 선형 연산으로 표현될 수 있다. 최적 스코어 추정기가 정확히 posterior 평균을 제공한다는 점을 이용해, 역ODE(Deterministic PF‑ODE)의 업데이트 식을 닫힌 형태로 전개한다. 결과적으로, 역샘플링 후 최종 분포 (\hat p_{0,G})는 원본 가우시안 (q_{0,G})와 동일한 평균을 갖지만, 공분산이 (\mathbf{U} \operatorname{diag}(m_1,\dots,m_k) \mathbf{U}^\top) 형태로 변형된다. 여기서 (m_\ell)는 각 고유값 (\mu_\ell)와 스케줄 (\alpha_t,\sigma_t)에 대한 곱셈적 누적 효과를 로그 형태로 합산한 결과이다.

KL 발산은 두 가우시안 사이의 표준식으로 계산되며, 이를 고유값 별로 분해하면 (\frac12\sum_\ell \bigl(m_\ell n_\ell^{-1} - \log(m_\ell n_\ell^{-1}) -1\bigr)) 형태가 된다. 여기서 (n_\ell = \alpha_0^2 \mu_\ell + \sigma_0^2)는 초기 공분산의 고유값이다. 시간 이산화 단계 수 (N)이 커짐에 따라 (m_\ell)는 (n_\ell)에 수렴하고, 수렴 속도는 Euler‑Maclaurin 전개를 통해 (O(1/N)) 임을 보인다. 구체적으로, (S_N^\ell = \sum_{j=1}^N \log\frac{\alpha_{t_{j-1}}}{\alpha_{t_j}} \frac{\mu_\ell \alpha_{t_j}^2 + \sigma_{t_j}^2}{\mu_\ell \alpha_{t_{j-1}}^2 + \sigma_{t_{j-1}}^2}) 를 연속적 적분 (I_\ell = \int_0^1 F_\ell(t)dt) 로 근사하고, 첫 번째 보정항 (E_1^\ell) 를 명시적으로 구한다.

변분 최적화 문제는 전체 KL 발산을 (\int_0^1 \frac{\dot\alpha\alpha\mu_\ell + \dot\sigma\sigma}{\alpha^2\mu_\ell + \sigma^2} dt) 형태의 함수적으로 변환한 뒤, 라그랑주 승수를 도입해 (\alpha(t),\sigma(t)) 사이의 관계를 도출한다. 최적 해는 (\sigma(t) = c \tan\bigl(\theta_0 + \int_0^t \frac{dt’}{\sqrt{\mu_{\max}}}\bigr)) 와 같은 탄젠트 법칙을 따르며, 여기서 상수 (c)와 초기 위상 (\theta_0)는 전체 공분산 스펙트럼(특히 최대 고유값 (\mu_{\max}))에 의해 결정된다. 즉, 고유값이 큰 차원을 더 빠르게 “디노이즈”하도록 스케줄이 가속화된다.

실제 사전 학습된 모델에 적용할 경우, 원본 모델이 사용한 노이즈 스케줄을 그대로 유지하면서 역샘플링 단계만 재배치한다. 이때 KL 발산을 계산해 다양한 이산화 전략을 비교하면, 추가 학습 없이도 최적에 근접한 스케줄을 선택할 수 있다. 실험에서는 CIFAR‑10, FFHQ‑64 등에서 NFE가 10~20 수준일 때도 FID 점수가 크게 개선되는 것을 확인했다.

요약하면, 가우시안 기반의 정확한 폐쇄형 해를 활용해 노이즈 스케줄과 시간 이산화가 KL 발산에 미치는 영향을 정량화하고, 변분법을 통해 이론적 최적 스케줄을 도출했으며, 이를 실제 모델에 저비용으로 적용해 기존 방법을 능가하는 성능을 입증하였다.


댓글 및 학술 토론

Loading comments...

의견 남기기