- Title: F2IDiff Real-world Image Super-resolution using Feature to Image Diffusion Foundation Model
- ArXiv ID: 2512.24473
- 발행일: 2025-12-30
- 저자: Devendra K. Jangid, Ripon K. Saha, Dilshan Godaliyadda, Jing Li, Seok-Jun Lee, Hamid R. Sheikh
📝 초록
생성형 인공지능의 도입으로 단일 이미지 초해상도(SISR) 품질이 크게 개선되었으며, 텍스트-투-이미지 확산(T2IDiff) 기반 모델에서 학습한 강력한 사전 지식은 고해상도(HR)와 저해상도(LR) 이미지 사이의 간격을 줄일 수 있습니다. 그러나 플래그십 스마트폰 카메라는 생성형 모델을 채택하는 데 느리게 반응하고 있으며, 강력한 생성은 불필요한 환영현상을 초래할 수 있기 때문입니다. 학계에서 볼 수 있는 크게 훼손된 LR 이미지는 강력한 생성이 필요하며, HR과의 큰 간격 때문에 환영현상도 어느 정도 용인됩니다. 반면에 소비자 사진에서는 LR 이미지가 상당히 높은 정확성을 가지고 있으며, 따라서 최소한의 환영현상 없는 생성만 요구됩니다. 우리는 SISR에서 생성이 FM의 조건부 기능의 엄격성과 풍부함에 의해 제어된다고 가정합니다. 첫째, 텍스트 특징은 고수준의 특징으로 이미지의 미세한 텍스처를 설명하는 데 자주 부적절할 수 있습니다. 또한 스마트폰 LR 이미지는 최소 12MP 이상이지만 T2IDiff FM 기반 SISR 네트워크는 훨씬 작은 이미지(<1MP)에 대해 추론하도록 설계되었습니다. 그 결과 SISR 추론은 종종 텍스트 특징으로 정확하게 설명하기 어려운 작은 패치에서 이루어져야 합니다. 이러한 단점을 해결하기 위해 우리는 하위 수준의 조건부 기능을 가진 FM, 특히 DINOv2 특성을 사용한 이미지 확산(Feature-to-Image Diffusion) 기반 모델(FM)이라고 명명하는 SISR 네트워크를 도입합니다. 하위 수준의 특징은 엄격한 조건부를 제공하면서 동시에 작은 패치도 충분히 설명할 수 있습니다.
💡 논문 해설
1. **새로운 접근법 소개:** 기존에 텍스트를 사용해 이미지를 생성하는 방식 대신, 이미지의 특징을 직접 활용하는 방법으로 고화질 이미지 복원 성능을 크게 개선했습니다. 이는 마치 그림을 그리기 위해 단순히 설명을 듣는 것보다 실제 그림을 보고 배우는 것이 더 효과적이라는 것을 의미합니다.
2. **학습 데이터의 효율성:** 기존 방법들은 수십억 장의 이미지를 학습시키지만, 우리의 방식은 38,000장의 신중하게 선택된 고해상도 이미지로 충분히 좋은 결과를 얻을 수 있습니다. 이는 마치 거대한 서점에서 책을 읽는 것보다 중요한 단 몇 권의 책만으로도 필요한 정보를 배울 수 있다는 것을 의미합니다.
3. **모델 복잡성 감소:** 우리의 방법은 U-Net 모델의 복잡성을 줄이면서도 기존 방법과 동등한 성능을 보여줍니다. 이를 통해 계산 자원을 더 효율적으로 사용할 수 있습니다.
📄 논문 발췌 (ArXiv Source)
# 서론
상단 그림에서 F2IDiff-SR은 Real-SISR(4×) 작업에서 PSNR, SSIM 및 FID 등 다양한 메트릭스를 통해 우수한 성능을 보여주며, SOTA 방법보다 크게 앞서는 것을 확인할 수 있습니다. 하단 그림에서는 F2IDiff-SR이 S25 Ultra 스마트폰으로 촬영된 실제 이미지에서 다른 방법들에 비해 더 나은 결과를 제공합니다. 다른 방법들은 불일치한 텍스처와 환영물을 생성하는 경향이 있습니다.
단일 이미지 초해상도(SISR)는 저해상도(LR) 입력으로부터 고해상도(HR) 이미지를 복원하는 과정을 말합니다. SISR은 스마트폰 카메라, 기후 연구, 재료 과학, 위성 영상 및 의학 등 다양한 응용 분야에서 중요한 문제로 활발히 연구되고 있습니다. 본 논문에서는 특히 스마트폰 카메라에 초점을 맞춥니다. 고급 스마트폰들은 대부분 여러 가지 광학 줌 렌즈를 갖추고 있으며, 센서 모자이크 패턴은 $`2\times`$ 및/또는 $`4\times`$ 줌을 가능하게 하고 광학적 방법으로 최대 $`10\times`$ 줌까지 가능합니다. 따라서 나머지 줌 시나리오는 SISR에 기반한 디지털 줌을 통해 처리해야 합니다.
과거에는 고전적인 이미지 처리 알고리즘들이 이 문제를 해결하기 위해 사용되었지만, 최근에는 합성곱 신경망(CNNs) 및 트랜스포머와 같은 딥러닝 기반 네트워크가 더 많이 사용되고 있습니다. 초기의 딥러닝 접근법은 고전적인 방법보다 크게 우수했지만, 주로 판별적이라기보다 생성적이지 않았으며 픽셀 단위 L2/MSE를 통해 최대 가능도 목표를 구현하는 방식으로 훈련되었습니다. 이러한 방법들은 다중 모드 대상에 대해 평균을 취하고 지나치게 부드럽고 뿌옇게 나온 출력물을 생성하기 쉬웠습니다.
이 문제점을 해결하기 위해, 적대적 네트워크(GAN) 기반 방법은 대립 손실 목표를 사용하여 초해상도 이미지의 인식 현실성을 향상시키려고 시도했습니다. 그러나 이러한 접근법은 아티팩트를 생성하고 종종 신뢰성에 영향을 미칠 수 있습니다.
최근에는 확산 기반 방법이 SISR의 생성 능력을 크게 개선시켰습니다. 이러한 방법들은 기본적인 구조에 따라 크게 분류할 수 있으며, 주요한 접근법 중 하나는 사전 훈련된 텍스트-이미지 확산(T2IDiff) FMs를 기반으로 하는 것입니다. 예를 들어 Stable Diffusion(SD)은 샘플링을 위한 강력한 사전 정보를 제공합니다. 그러나 이러한 방법들은 종종 복잡하고 계산/메모리 집약적이며, 그림 1과 2에서 볼 수 있듯이 상당한 양의 환영물 아티팩트를 생성하는 경향이 있습니다.
상세 내용을 확대하십시오: 최신 단일 단계 확산 SR 방법, 예를 들어 OSEDiff와 PiSA-SR은 실제 테스트 데이터셋에서 과도한 환영물을 생성합니다. 예를 들어, OSEDiff는 입력 이미지에 새가 없음에도 불구하고 출력 이미지에 새의 꼬리를 생성합니다. 마찬가지로 PiSA-SR은 얼굴 특징 대신 털을 생성하여 부정확하고 현실적이지 않은 결과를 제공합니다.
우리는 FM 기반 방법에서 환영물이 FM 조건부의 유연성과 풍부함에 연관되어 있다고 생각합니다. 학계에서는 SISR용 대부분의 LR 이미지는 해당 HR 이미지와 비교해 심각하게 손상된 상태입니다. 따라서 SISR에서 환영물은 큰 LR-HR 간격 때문에 유용할 수 있습니다. 그러나 스마트폰, 특히 플래그십 장치에서는 고급 센서와 광학 기술을 사용하기 때문에 LR 이미지가 매우 높은 정확도를 가지게 됩니다. 예를 들어 Galaxy S25 Ultra($`1/1.3^{\prime\prime}`$, 200MP, $`f/1.7`$), iPhone 17 Pro/Max($`\approx1/1.28^{\prime\prime}`$, 48MP, $`f/1.78`$) 및 Google Pixel 10 Pro($`\approx1/1.3^{\prime\prime}`$, 50MP, $`f1/1.85`$)는 우수한 SNR, 동적 범위 및 세부 텍스처를 제공합니다. 우리의 대상 도메인은 소비자 사진이며, 여기서 장면의 정확성을 유지하는 것이 중요한 역할을 합니다. 따라서 우리는 학계에서 보이는 과도한 환영물보다 통제된, 환영물 없는 강화를 선호합니다.
또한 스마트폰에서는 LR 이미지가 최소 $`12MP`$ 즉, $`4k \times 3k`$인 반면 T2IDiff FMs는 최대 $`1k \times 1k`$ 이미지만 처리할 수 있습니다. 따라서 이미지를 패치로 나누고 각각 독립적으로 초해상도화해야 합니다. 이는 더 높은 해상도의 이미지의 패치에 텍스트 캡션을 생성해야 함을 의미하며, 종종 텍스트 캡셔닝 엔진이 의미 있는 캡션을 생성하기에 충분한 내용/맥락이 부족합니다. 예를 들어 패치는 얼굴의 일부나 나무 부분 등을 포함할 수 있으며, 캡션링 엔진은 이들을 의미 있게 설명하지 못하여 잘못된 조건부를 초래합니다.
이러한 문제점을 극복하기 위해 우리는 T2IDiff FM 대신 Feature-to-Image Diffusion(F2IDiff) FM을 기반으로 하는 SISR 네트워크를 제안합니다. 특히 DINOv2 특징을 사용할 것을 제안하는데, 이는 텍스트가 고수준의 의미 정보를 포착하는 반면 저수준 세부 사항인 텍스처를 포착하기 때문입니다. 또한 DINOv2는 텍스트보다 더 낮은 수준에서 작동하므로 패치 단위에서도 구별 가능한 특징을 캡처할 수 있습니다.
우리가 이미지를 크게 강화해야 할 필요가 없기 때문에, 기저 FM 모델은 신중하게 선택된 이미지로 훈련되더라도 상당히 적게 사용해도 됩니다. 본 논문에서는 38,000장의 HR 이미지만을 사용하여 F2IDiff FM을 학습시키며, 이는 SD 2.1과 같은 대부분의 SISR 네트워크가 기반으로 하는 수십억 장의 이미지보다 적습니다.
마지막으로 우리는 훨씬 적은 양의 이미지를 사용해 사전 정보를 구축하기 때문에 모델 용량을 크게 줄일 수 있으며, U-Net 복잡성을 $`2\times`$ 감소시켜도 유사한 결과를 보여줍니다.
우리는 이미지 특징에 조건부인 F2IDiff FM을 도입하여 SISR 문제에 특화된 네트워크를 제안합니다.
우리는 F2IDiff FM 위에 SISR 네트워크를 개발하고, T2IDiff FM 기반 네트워크와 최신 방법 대비 우수한 성능을 보여줍니다.
우리는 38K 이미지를 사용해 DINOv2 특징으로 훈련된 F2IDiff FM이 수십억 장의 이미지로 훈련된 모델보다 탁월한 정확도와 적은 환영물을 제공하며, U-Net 복잡성을 두 배 줄일 수 있다는 것을 보여줍니다.
관련 연구
SISR 분야는 딥러닝 방법에 의해 크게 발전했습니다. 여기서는 초기 CNN 접근법에서 현대의 생성 모델까지의 진보를 제시하고, 우리의 F2IDiff-SR을 최신 SOTA 방법 내부로 위치지정합니다.
GAN 기반 실제 SISR: 초기 딥러닝 방법은 GAN에 의해 크게 발전되었으며 픽셀 단위 지표를 넘어 사진 같은 결과물을 달성했습니다. SRGAN, 그 후속 ESRGAN 및 LDL은 이 분야에서 획기적인 역할을 했습니다. 중요한 도전과제 중 하나는 간단하고 알려진 손상에 의존하는 것이었습니다. 실제 이미지로의 일반화를 개선하기 위해 BSRGAN 및 Real-ESRGAN은 더 실제적인 학습 데이터를 합성하기 위한 고차원 손상 모델링을 도입했습니다. 이러한 방법들은 선명한 세부 사항을 생성하는 데 성공했지만, GAN 기반 방법은 훈련 불안정성과 시각적 아티팩트 생성의 경향성을 가진다는 한계가 있습니다.
다중 단계 확산 모델로 실제 SISR: 최근에는 확산 모델이 SISR에서 더 나은 성능을 보여주며, SD와 같은 사전 훈련된 T2IDiff 모델로부터 강력한 사전 정보를 활용했습니다. 일반적인 패러다임으로는 LQ 입력을 가이드로 하는 반복적 소음 제거 과정이 있으며, StableSR의 경우 세밀하게 조정된 인코더 사용 또는 DiffBIR의 경우 사전 복원 모듈 등을 사용합니다.
단일 단계 확산 모델로 실제 SISR: 다중 단계 방법의 지연을 해결하기 위해 SinSR는 큰 확산 모델의 생성 능력을 단일 전방 패스로 압축하는 데 집중했습니다. 이는 변분 스코어 추출(VSD) 같은 기법으로 가능합니다. OSEDiff는 LQ 이미지를 시작점으로 하고 VSD 손실을 사용해 출력을 정규화하는 대표적인 예입니다.
단일 단계 확산 모델로 실제 SISR: 다중 단계 방법의 지연을 해결하기 위해 SinSR은 큰 확산 모델의 생성 능력을 단일 전방 패스로 압축하는 데 집중했습니다. 이는 변위 스코어 추출(VSD) 같은 기법으로 가능합니다. OSEDiff는 LQ 이미지를 시작점으로 하고 VSD 손실을 사용해 출력을 정규화하는 대표적인 예입니다.
우리 방법:(a) T2IDiff FM 훈련 파이프라인: Florence 캡션 생성, 텍스트 인코더를 사용해 사전 학습된 인코더-디코더로 내부 38K HR 이미지에서 텍스트 조건부가 있는 확산 U-Net을 처음부터 훈련합니다. (b) F2IDiff FM 훈련 파이프라인: DINOv2 특징 추출기와 사전 학습된 인코더-디코더를 사용해 내부 38K HR 이미지에서 DINOv2 특징을 조건부로 하는 확산 U-Net을 처음부터 훈련합니다. (c) T2IDiff FM 기반 SISR 네트워크: LoRA를 사용해 단일 단계 확산 SR 모델을 구축합니다. (d) F2IDiff FM 기반 SISR 네트워크: LoRA를 사용해 단일 단계 확산 SR 모델을 구축합니다.
방법론
이 섹션에서는 먼저 F2IDiff FM의 훈련 방법에 대해 자세히 설명하고, 이를 $`4\times`$ 초해상도 SISR 네트워크로 통합하는 방법을 논하며, LoRA 학습 전략을 사용합니다. 마지막으로 FMs 및 SISR 네트워크를 훈련시키기 위해 사용된 데이터셋 수집 및 준비 과정에 대해 간단히 설명하겠습니다.
특징-이미지 기초 모델
우리는 내부 38K HR 이미지 데이터셋을 사용해 F2IDiff와 T2IDiff FMs를 학습하고 개발하여 F2IDiff-SR과 T2IDiff-SR 간의 공정한 비교를 보장하였습니다. 목표는 F2IDiff-SR이 T2IDiff-SR보다 더 나은 정확도와 통제된 생성을 제공하며, 결과적으로 더 현실적인 출력물을 생성한다는 것을 입증하는 것입니다.
단일 이미지 초해상도 네트워크
본 소절에서는 T2IDiff 및 F2IDiff FMs를 사용한 SISR 네트워크를 설계합니다. 우리의 목표는 스마트폰 카메라용 고급 SISR 네트워크를 개발하여 정확성을 유지하고 제어된 생성 능력을 갖추며 환영물과 아티팩트를 최소화하는 것입니다.