양방향 보상 기반 확산을 이용한 실세계 이미지 초해상도

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Bird‑SR은 합성 LR‑HR 쌍과 실제 LR 이미지를 동시에 활용해, 확산 모델의 전·후방 과정을 보상 신호로 최적화하는 프레임워크이다. 초기 단계에서는 합성 데이터에 대해 구조 보존을, 후반 단계에서는 품질 보상을 적용해 실제 이미지에서도 세밀한 디테일과 구조 일관성을 동시에 달성한다.

상세 분석

본 논문은 확산 기반 초해상도(SR) 모델이 합성 데이터에 과도하게 의존함으로써 실세계 LR 이미지에 적용할 때 발생하는 도메인 갭을 근본적으로 해결하고자 한다. 핵심 아이디어는 ‘Trajectory‑level Preference Optimization’을 구현하는 Reward Feedback Learning(ReFL)이다. 구체적으로, 저자는 두 가지 데이터 흐름을 설계한다. 첫 번째는 합성 LR‑HR 쌍에 대해 전방(Forward) 확산 단계에서 미리 정의된 가우시안 노이즈를 주입하고, 단일 스텝 폐쇄형 보간식을 이용해 복원된 HR을 얻는다. 이때 보상은 ‘상대 보상(relative reward)’ 형태로 정의되어, 실제 GT 이미지와 모델 출력 간의 품질 차이를 최소화한다. 상대 보상은 절대 보상에 비해 보상 해킹(reward hacking) 위험을 크게 감소시키며, 구조적 왜곡을 정량화하는 데 유리하다. 두 번째 흐름은 실제 LR 이미지에 대해 역방향(Reverse) 확산 과정을 진행하면서, 마지막 타임스텝에만 품질 보상을 적용한다. 여기서는 DINO 기반의 공간적 의미론적 특징을 이용해 ‘Semantic Alignment’를 정규화 항으로 삽입함으로써, 무제한 보상 최적화가 초래할 수 있는 비현실적 텍스처 생성을 억제한다.

또한, 논문은 diffusion trajectory 전반에 걸쳐 구조와 지각(Perception) 사이의 트레이드오프를 동적으로 조절하는 ‘Fidelity‑Perception Weighting’ 전략을 제안한다. 초기 타임스텝에서는 구조 보존을 강조하는 높은 가중치를 부여하고, 점진적으로 후기 단계에서는 지각 품질을 강화하는 가중치로 전환한다. 이는 diffusion 과정이 초기에는 저주파 구조 정보를, 후기에는 고주파 디테일을 담당한다는 물리적 특성을 활용한 설계라 할 수 있다.

학습 안정성 측면에서, 저자는 전방 단계에서 단일 스텝 폐쇄형 보간을 사용함으로써 긴 T‑step 역전파에 따른 메모리 부담을 크게 줄였다. 또한, 보상 함수는 CLIP‑ImageScore, NIQE 등 인간 지각에 근접한 무감독 메트릭을 조합해 설계했으며, 상대 보상은 GT와의 차이값을 직접 최소화하므로 스칼라 보상보다 더 풍부한 신호를 제공한다.

실험에서는 DIV2K‑synthetic, RealSR, DRealSR 등 다양한 실세계 SR 벤치마크에서 PSNR/SSIM는 다소 낮을 수 있으나 LPIPS, NIQE, MOS 등 지각 지표에서 현저히 우수한 결과를 보였다. 특히, 구조 일관성을 평가하는 SSIM‑edge와 같은 변형 지표에서도 기존 GAN‑기반 및 확산 기반 방법들을 앞섰다. Ablation study를 통해 상대 보상, semantic alignment, 동적 가중치 각각이 성능 향상에 기여함을 입증하였다.

요약하면, Bird‑SR은 (1) 전·후방 확산을 동시에 활용한 양방향 학습, (2) 합성 데이터에 대한 구조‑우선 전방 최적화와 실제 데이터에 대한 지각‑우선 역방향 보상, (3) 보상 해킹 방지를 위한 상대 보상 및 의미론적 정규화, (4) 타임스텝에 따라 가변적인 구조‑지각 가중치 부여라는 네 가지 핵심 메커니즘을 통해 실세계 초해상도 문제를 효과적으로 해결한다.

양방향 보상 기반 확산을 이용한 실세계 이미지 초해상도

초록

상세 분석

댓글 및 학술 토론

의견 남기기