효율적이고 견고한 LikelihoodGuided 확산 사후 샘플링을 위한 AmortizedVariationalInference
초록
본 논문은 사전 학습된 확산 모델을 이용한 제로샷 사후 샘플링의 높은 연산 비용을 완화하기 위해, 각 타임스텝에서 발생하는 변분 최적화 문제를 사전 학습 단계에서 amortize 하는 새로운 전략을 제안한다. 이 방법은 기존 제로샷 방식의 임의의 손상 연산자에 대한 유연성을 유지하면서, 학습 시에 본격적인 연산을 수행해 인‑분포 손상에 대해서는 추론 속도를 크게 높인다.
상세 분석
논문은 크게 네 가지 핵심 아이디어로 구성된다. 첫째, 확산 모델을 사전 학습한 뒤 베이지안 역문제에 대한 사후 분포 π₀(x₀|y,A)를 직접 샘플링하는 제로샷 방법은 likelihood‑guided term ∇ₓₜ log ℓₜ(y|xₜ,A)를 매 타임스텝마다 계산해야 하므로 연산량이 크게 늘어난다. 둘째, 기존의 완전 amortized 접근법(예: 조건부 디노이저 학습, implicit variational flow)은 이 likelihood term을 네트워크 내부에 내재시켜 학습 데이터에 포함된 손상 연산자에만 강건하게 동작한다는 한계가 있다. 셋째, 저자는 변분 확산 사후 샘플링(VDS) 프레임워크, 특히 MGDM에서 각 타임스텝 t에 대해 중간 시점 s<t을 선택하고, 해당 중간 분포 \hatπ_{st} 을 Gibbs 샘플링으로 근사하는 과정에서 발생하는 내부 KL 최적화 문제를 정의한다. 이 최적화는 Gaussian μ, ρ 파라미터를 찾는 간단한 변분 문제이며, 매 타임스텝마다 독립적으로 풀어야 한다. 넷째, 이러한 내부 변분 문제 자체를 사전 학습 단계에서 amortize한다. 구체적으로, (μ, ρ) 예측기를 ϕ 파라미터화한 신경망을 도입해 c = (x₀, xₜ, s, t, y, A) 와 같은 컨텍스트를 입력으로 받아 바로 최적의 Gaussian 근사를 출력하도록 학습한다. 학습 시에는 실제 Gibbs 샘플링을 수행해 얻은 “ground‑truth” μ*, ρ* 값을 목표로 KL 손실을 최소화한다. 이렇게 하면 추론 시에는 복잡한 Monte‑Carlo 기반 KL 최소화 과정을 건너뛰고, 단일 전방 패스만으로 해당 타임스텝의 변분 근사를 얻을 수 있다.
이 설계는 두 가지 중요한 장점을 동시에 제공한다. (1) 인‑분포 손상 연산자(A)와 관측 y에 대해서는 사전 학습된 ϕ가 빠른 추론을 가능하게 하여 전체 샘플링 단계 수를 크게 줄인다. (2) 테스트 시점에 여전히 명시적인 likelihood ∇ₓₜ log ℓₜ를 계산하므로, 완전 amortized 모델이 겪는 OOD(Out‑Of‑Distribution) 취약성을 피한다. 실험에서는 ImageNet 기반 초고해상도(x4), 인페인팅, 모션 디블러링 등 다양한 작업에서 제한된 샘플링 스텝(예: 10~20 step)에서도 기존 제로샷 방법보다 PSNR/SSIM이 개선됐으며, 완전 amortized 및 supervised diffusion 모델이 전혀 복원하지 못하는 새로운 손상 연산자에 대해서도 견고한 성능을 보였다.
또한 논문은 이론적 관점에서 변분 사후 샘플링의 ELBO(Evidence Lower Bound) 구조를 재해석하고, 내부 KL 최소화가 전체 ELBO에 미치는 영향을 분석한다. 특히, amortized ϕ 가 충분히 표현력을 가질 경우, 각 타임스텝에서의 변분 근사는 최적에 근접하게 되며, 전체 샘플링 과정은 원래 제로샷 VDS와 동일한 확률적 보장을 유지한다는 점을 증명한다. 마지막으로, 저자는 향후 연구 방향으로 (i) 다중 손상 연산자를 동시에 학습하는 멀티‑태스크 ϕ, (ii) 비가우시안 변분 근사를 위한 richer ϕ 구조, (iii) 메타‑학습을 통한 빠른 적응 메커니즘 등을 제시한다.
전체적으로 이 논문은 “likelihood‑guided”라는 핵심 강점을 포기하지 않으면서, 변분 최적화 단계 자체를 amortize 함으로써 효율성과 견고성을 동시에 달성한 최초의 시도이며, 확산 기반 역문제 해결에 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기