깊은 이미지 사전 학습을 통한 블라인드 이미지 디노이징
본 논문은 이미지 노이즈를 제거하는 블라인드 디노이징 문제를 도메인 정렬 관점에서 접근한다. 두 단계의 이미지 사전(특징‑레벨 사전과 픽셀‑레벨 사전)을 H‑다이버전스 이론에 기반한 적대적 학습으로 학습시켜, 서로 다른 노이즈 레벨 간의 특징 차이를 최소화하고, 복원된 이미지를 자연 이미지 매니폴드에 끌어올린다. 제안된 DIPNet은 단일 모델로 다양한 합성·실제 노이즈에 대해 PSNR/SSIM은 물론 주관적 품질까지 향상시킨다.
저자: Xianxu Hou, Hongming Luo, Jingxin Liu
**1. 연구 배경 및 동기**
이미지 디노이징은 저수준 비전에서 가장 기본적인 문제이며, 기존 방법은 크게 두 갈래로 나뉜다. 모델 기반 접근법(BM3D, WNNM 등)은 손수 설계한 사전(비자체 상관성, 스파스 표현 등)을 이용해 복잡한 최적화 과정을 거치지만, 실행 속도가 느리고 실제 잡음에 대한 일반화가 부족하다. 반면, 딥러닝 기반 방법(DnCNN, FFDNet 등)은 대규모 잡음‑청정 이미지 쌍을 통해 암묵적인 사전을 학습해 빠른 추론이 가능하지만, 대부분 특정 노이즈 레벨에 맞춰 훈련돼 블라인드 상황이나 실제 카메라 잡음에 취약하다.
**2. 문제 정의**
저자는 이미지 디노이징을 “노이즈 도메인 → 사진‑실사 도메인”이라는 두 확률 분포 사이의 변환으로 정의한다. 여기서 노이즈 레벨이 다른 여러 도메인과 깨끗한 이미지 도메인 사이의 격차를 최소화하면, 하나의 모델로 다양한 노이즈를 처리할 수 있다. 이를 위해 H‑다이버전스(H‑divergence) 이론을 차용한다. H‑다이버전스는 두 도메인을 구분하는 최적 분류기의 오류율에 기반하므로, 분류기의 손실을 최대화하도록 특징 추출기를 학습시키면 두 도메인이 정렬된다.
**3. 제안 방법**
- **특징‑레벨 사전 (Feature‑level Prior)**
- 다중 클래스 디스크리미네이터를 사용해 입력 이미지가 어느 노이즈 레벨에 속하는지 예측한다.
- 디스크리미네이터 앞에 Gradient Reversal Layer(GRL)를 삽입해 변환 네트워크가 분류기를 속이도록 학습한다.
- 결과적으로 변환 네트워크는 노이즈 레벨에 무관한 특징을 학습하게 되며, 블라인드 디노이징에 필수적인 “노이즈 레벨 불변성”을 확보한다.
- **픽셀‑레벨 사전 (Pixel‑level Prior)**
- Patch‑기반 GAN 디스크리미네이터를 도입해 복원 이미지와 실제 깨끗한 이미지 사이를 이진 분류한다.
- VGG‑19 중간 층에서 추출한 고수준 텍스처를 디스크리미네이터에 결합해 고주파 정보를 강조한다.
- GRL을 통해 변환 네트워크가 디스크리미네이터를 속이면서 자연 이미지 매니폴드에 가까운 출력을 생성한다.
- **변환 네트워크 (DIPNet)**
- 16‑layer Residual 블록으로 저수준 특징을 추출하고, 두 개의 비대칭 경로(로컬 CNN 경로와 전역 Fully‑Connected 경로)를 통해 지역·전역 정보를 각각 학습한다.
- 로컬 경로는 두 개의 Residual 블록으로 구성돼 공간 정보를 유지하고, 전역 경로는 GAP 후 두 개의 FC 레이어로 전역 컨텍스트를 요약한다.
- 로컬·전역 특징을 점wise affine 방식으로 융합해 최종 복원 이미지를 만든다. 이 구조는 다양한 해상도와 복잡한 잡음 패턴에 대해 유연성을 제공한다.
**4. 실험 및 결과**
- **데이터셋**: 합성 Gaussian 노이즈(σ=15~75)와 실제 카메라 잡음(Real‑World) 두 종류를 사용.
- **정량적 평가**: PSNR/SSIM 기준에서 BM3D, DnCNN, FFDNet, GAN‑CNN 등을 모두 능가. 특히, 특징‑레벨 사전이 다중 노이즈 레벨에 대한 성능 편차를 크게 감소시켜 블라인드 설정에서 가장 높은 점수를 기록.
- **주관적 평가**: MOS(Mean Opinion Score) 실험에서 픽셀‑레벨 사전이 포함된 모델이 가장 자연스러운 결과를 제공, 고주파 디테일 보존과 색감 왜곡 최소화가 확인됨.
- **일반화 실험**: 하나의 모델을 합성 Gaussian 노이즈에만 학습시켰음에도 불구하고, 실제 잡음 데이터에 대해 기존 실세계 전용 모델보다 우수한 성능을 보였다.
**5. 논의 및 한계**
- 두 사전을 동시에 학습함으로써 왜곡(PSNR)과 지각(시각적 품질) 사이의 트레이드오프를 효과적으로 관리했지만, 훈련 비용이 증가한다(두 개의 디스크리미네이터와 GRL 포함).
- 현재는 노이즈 레벨을 미리 정의된 클래스(예: 5개)로 제한했으며, 연속적인 노이즈 레벨에 대한 확장은 추가 연구가 필요하다.
- GAN 기반 픽셀‑레벨 사전은 훈련 불안정성을 내포하므로, 보다 안정적인 퍼셉추얼 손실(예: LPIPS)과 결합하는 방안이 제안될 수 있다.
**6. 결론 및 향후 연구**
본 논문은 H‑다이버전스 기반의 두 단계 이미지 사전을 도입해, 하나의 딥 네트워크가 다양한 노이즈 레벨과 실제 잡음을 동시에 처리하도록 설계했다. 특징‑레벨 사전은 도메인 정렬을 통해 블라인드 디노이징의 강건성을 확보하고, 픽셀‑레벨 사전은 복원 이미지의 시각적 자연스러움을 크게 향상시킨다. 향후 연구는 (1) 사전 학습을 다른 저‑레벨 비전 과제(초해상도, 색보정 등)로 확장, (2) 비지도 방식으로 사전 자체를 자동 생성, (3) 경량화 및 실시간 적용을 위한 모델 압축 기술 적용 등을 목표로 할 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기