반복 없는 고정점 추정기로 구현한 효율적인 확산 역전
초록
본 논문은 확산 모델의 역전 과정에서 매 단계마다 발생하는 누적 오류를 최소화하기 위해, 반복 연산 없이 고정점을 직접 추정하는 새로운 방법(IFE)을 제안한다. 기존 고정점 반복법이 요구하던 다중 반복을 없애고, 이전 단계에서 계산 가능한 오류를 현재 단계의 미지 오류에 대입함으로써 닫힌 형태의 추정식을 얻는다. 이 추정식은 편향이 없고 분산이 낮은 통계적 특성을 가지며, NOCAPS와 MS‑COCO 데이터셋에서 DDIM 역전 및 기존 고정점 반복 기반 방법들을 능가하는 재구성 품질을 보인다.
상세 분석
본 연구는 확산 역전 과정에서 “알려지지 않은 잠재 변수 zₜᵢ”를 직접 구하는 명시적 식을 도출함으로써, 기존의 반복 기반 고정점 방법이 안고 있던 계산 복잡도와 하이퍼파라미터 튜닝 문제를 근본적으로 해소한다. 핵심 아이디어는 DDIM 역전 식(7)에서 네트워크 입력 zₜᵢ 가 존재하지 않는다는 점을 이용해, 데이터 예측 ẑ₀ 와 노이즈 예측 ε̂ 사이의 변환 관계(식 6)를 역이용하는 것이다. 이를 통해 zₜᵢ 를 zₜᵢ₋₁, ẑ₀ 및 예측 오류 eₜᵢ (데이터 예측 오차)만을 포함하는 식(12)으로 변환한다. 여기서 남는 미지 변수 eₜᵢ 는 바로 이전 단계에서 계산 가능한 오류 eₜᵢ₋₁ 으로 근사한다(오류 근사식 14). 이 근사는 “오류는 시간적으로 연속적으로 변한다”는 가정에 기반하며, 실제 실험에서 오차 전파가 완만함을 확인하였다.
오차 근사를 적용하면, 고정점 추정식은 완전한 닫힌 형태가 되며, 이는 곧 “반복 없이 한 번의 계산만으로 고정점을 얻는다”는 의미다. 이 추정값은 기대값이 진정한 고정점과 일치함을 수학적으로 증명했으며(정리 1), 분산 또한 기존 고정점 반복이 수십 번 수행될 때보다 현저히 낮다. 따라서 추정값은 편향이 없고(low‑bias), 분산이 작은(unbiased, low‑variance) 추정량으로 정의된다.
계산 복잡도 측면에서, 기존 고정점 반복법은 각 역전 단계마다 K 번(보통 5~10회) 네트워크 호출을 필요로 하여 전체 복잡도가 O(N·K) 에 달한다. 반면 IFE는 한 단계당 한 번의 네트워크 호출만 필요하므로 O(N) 으로 감소한다. 메모리 사용량도 동일하게 감소한다.
실험에서는 텍스트‑이미지 데이터셋인 NOCAPS와 MS‑COCO를 사용해 재구성 PSNR, SSIM, LPIPS 등을 측정하였다. IFE는 DDIM 역전 대비 평균 +2.1 dB PSNR 향상을 보였으며, 기존 고정점 반복 기반 AIDI와 ReNoise를 능가하는 LPIPS 감소(≈ 0.04)와 SSIM 증가(≈ 0.03)를 기록했다. 특히 반복 수를 0으로 설정했음에도 불구하고, 반복 기반 방법이 5~10회 반복했을 때와 비슷하거나 더 나은 성능을 달성했다.
한계점으로는 오류 근사가 급격히 변하는 고해상도 혹은 매우 낮은 α 값 구간에서 약간의 성능 저하가 관찰되었으며, 이는 향후 가변형 오류 근사 가중치를 도입해 보완할 수 있다. 전반적으로 IFE는 연산 효율성, 이론적 보장, 실험적 우수성을 동시에 만족하는 확산 역전 방법으로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기