원스텝 잔차 이동 디퓨전으로 구현한 초고해상도 이미지 복원

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 고품질 초고해상도(Diffusion) 모델인 ResShift를 1단계로 가속화하는 새로운 지식 증류 기법 RSD(Residual Shifting Distillation)를 제안한다. 학생 네트워크가 생성한 이미지에 대해 가짜 ResShift 모델을 학습시켜 교사 모델과 일치하도록 함으로써, 단일 스텝 복원에서도 교사보다 높은 LPIPS·CLIPIQA·MUSIQ 점수를 달성한다. 실험은 RealSR·RealSet65·DRealSR·ImageNet·DIV2K 등 다양한 데이터셋에서 수행되었으며, 파라미터·GPU 메모리·학습 비용 측면에서도 기존 텍스트‑투‑이미지 기반 SR 방법보다 효율적이다.

상세 분석

RSD는 두 단계의 핵심 아이디어로 구성된다. 첫 번째는 “가짜” ResShift 모델 f ϕ를 도입해 학생 생성기 G θ가 만든 (LR,HR) 쌍을 교사 f*와 동일한 확률분포로 매핑하도록 하는 것이다. 이를 위해 논문은 교사와 가짜 모델 사이의 L2 차이를 최소화하는 손실 L₍θ₎를 정의하고, 직접적인 역전파가 불가능한 ∇θ f Gθ 를 가짜 모델 학습으로 대체함으로써 계산 가능하게 만든다(정리 3.1). 두 번째는 다단계 학습 확장으로, 여러 타임스텝 t₁…t_N 에 대해 조건부 생성기 G θ를 학습시켜 단일 스텝 추론 시에도 다양한 노이즈 레벨에 대한 강인성을 확보한다.

ResShift 자체는 LR 이미지를 평균 η 스케줄에 따라 가우시안 노이즈와 잔차 e₀ 를 더해 x_t 를 생성하고, 역방향에서는 f θ가 x₀ (HR)을 예측하도록 설계된다. 기존 SinSR는 DDIM 기반 deterministic 샘플링으로 1‑step 압축을 시도했지만, 블러 현상이 심각했다. 반면 OSEDiff은 대규모 텍스트‑투‑이미지 모델을 LoRA로 조건화하고 VSD로 증류했지만, 파라미터 수·메모리·학습 비용이 크게 늘어났다. RSD는 이러한 양쪽의 단점을 보완한다.

실험 결과는 세 가지 관점에서 우수성을 입증한다. ① Perceptual quality: LPIPS, CLIPIQA, MUSIQ 등 비참조 지표에서 SinSR와 OSEDiff을 모두 앞선다. 특히 1‑step RSD는 교사 ResShift‑15보다도 높은 점수를 기록한다. ② Efficiency: NFE는 1에 고정되면서 파라미터 수와 GPU 메모리 사용량은 SinSR 수준에 머무른다. ③ Generalization: RealSR, RealSet65, DRealSR 등 실제 촬영 이미지와 합성 데이터 모두에서 일관된 성능 향상을 보인다.

또한 논문은 RSD 손실과 VSD 손실을 KL‑다이버전스 형태로 정량화해, RSD가 교사와 학생 사이의 전체 시퀀스 p(x₀:T|y₀) 분포 차이를 직접 최소화한다는 점을 이론적으로 증명한다. 이는 기존 VSD가 단일 타임스텝에만 초점을 맞추는 것과 대비된다. 마지막으로 다단계 학습이 단일 스텝 추론 정확도를 크게 높이며, 이는 “시간 조건부” 입력을 통해 모델이 다양한 노이즈 레벨을 학습하도록 만든 덕분이다.

전체적으로 RSD는 “학생이 만든 데이터로 교사를 재학습한다”는 메타‑증류 전략을 통해, 1‑step 초고해상도 복원에서 기존 최첨단 방법들을 능가하면서도 실용적인 연산 비용을 유지한다는 점에서 큰 의의를 가진다.

원스텝 잔차 이동 디퓨전으로 구현한 초고해상도 이미지 복원

초록

상세 분석

댓글 및 학술 토론

의견 남기기