RAW 도메인 확산 모델로 실세계 이미지 복원 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 센서 RAW 데이터를 직접 입력으로 활용하는 확산 기반 이미지 복원 모델인 RDDM을 제안한다. RAW‑Domain VAE(RVAE)와 다중 베이어 패턴을 지원하는 CMB‑LoRA 모듈을 도입해 도메인 격차와 센서 다양성을 극복하고, 기존 sRGB 기반 방법보다 높은 복원 품질과 적은 아티팩트를 달성한다. 대규모 RAW‑LQ/HQ 합성 데이터 파이프라인을 구축해 학습 효율을 높였으며, 다양한 실세계 및 합성 벤치마크에서 최첨단 성능을 입증한다.

상세 분석

RDDM은 기존 sRGB‑기반 확산 모델이 ISP 과정에서 손실되는 고비트·고다이내믹 레인지 정보를 복원하기 위해 RAW 도메인으로 직접 이동한다는 근본적인 설계 전환을 제시한다. 핵심 기술은 세 가지로 요약된다. 첫째, RVAE는 RAW 이미지의 모자이크 패턴과 노이즈 특성을 고려해 라티스 공간을 학습한다. 인코더는 노이즈가 섞인 RAW를 잠재 변수 z 로 변환하고, 디코더는 이를 선형 색공간(LINEAR) 이미지로 복원함으로써 sRGB와 RAW 사이의 분포 격차를 완화한다. 학습 단계에서는 L1, LPIPS, GAN 손실을 결합해 색감과 텍스처를 동시에 최적화하고, 라티스 분포를 표준 정규분포로 정규화해 확산 단계와의 호환성을 확보한다. 둘째, CMB‑LoRA는 다양한 베이어 패턴(RGGB, BGGR 등)에 대한 적응성을 저비용으로 제공한다. 기존 LoRA를 확장해 패턴별 가중치 브랜치를 삽입하고, 학습 시 각 브랜치를 독립적으로 최적화한다. 추론 시 입력 RAW의 메타데이터에 따라 적절한 브랜치를 선택함으로써 센서 간 일반화를 크게 향상시킨다. 셋째, 데이터 부족 문제를 해결하기 위해 sRGB 데이터셋을 역톤맵핑(IPTP)과 모자이크 노이즈 합성(MNS) 파이프라인으로 변환해 대규모 RAW‑LQ/HQ 쌍을 자동 생성한다. 이 과정에서 JPEG 압축 등 sRGB 특유의 왜곡을 배제하고, 실제 센서 노이즈와 색필터 배열을 모사함으로써 학습 데이터와 테스트 환경 간의 도메인 차이를 최소화한다. 실험에서는 DIV2K‑Val, RealSR, DRealSR 등 합성 벤치마크와 DND, RealCapture, SIDD 등 실제 RAW 데이터셋을 사용해 PSNR, SSIM, LPIPS, FID 등 다중 지표에서 기존 최첨단 sRGB 확산 모델 및 GAN 기반 복원 모델을 능가한다. 특히 1스텝 샘플링(OSEDiff‑s1 대비)에서도 높은 품질을 유지해 효율성까지 확보한다. 전체 아키텍처는 RVAE와 사전학습된 Stable Diffusion(ϵθ)을 결합하고, 텍스트 프롬프트 추출기(DAPE)를 통해 sRGB 이미지에서 의미 정보를 얻어 생성적 사전 지식을 강화한다. 이러한 설계는 RAW 도메인 특유의 노이즈·모자이크 제거와 고품질 텍스처 복원을 동시에 달성한다는 점에서 의미가 크다.

RAW 도메인 확산 모델로 실세계 이미지 복원 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기