파동 변환 기반 생성적 적대 신경망을 이용한 이미지 초해상도
초록
본 논문은 기존 SRGAN의 텍스처 복원 한계를 보완하기 위해 웨이브릿 변환과 GAN을 결합한 초해상도 모델을 제안한다. 웨이브릿을 이용해 이미지의 고주파와 저주파 정보를 분리하고, 각각을 전용 서브 네트워크로 처리한 뒤 GAN 기반 디코더로 통합한다. VOC2012로 학습하고 Set5·Set14·BSD100·Urban100에서 평가한 결과, PSNR·SSIM·LPIPS 등 여러 지표에서 기존 SRGAN 및 최신 방법보다 우수한 성능을 보이며, 특히 고주파 디테일 복원에서 눈에 띄는 개선을 확인하였다.
상세 분석
이 연구는 초해상도(SR) 분야에서 흔히 발생하는 고주파 디테일 손실 문제를 근본적으로 해결하고자 한다. 기존 SRGAN은 손실 함수에 퍼셉추얼 손실과 적대 손실을 결합해 텍스처를 어느 정도 복원했지만, 고주파 성분이 얇게 분포된 영역에서는 노이즈와 블러 현상이 여전히 남는다. 이를 극복하기 위해 저자들은 이미지 신호를 다중 해상도 스케일로 분해하는 웨이브릿 변환을 도입하였다. 웨이브릿은 저주파(근사)와 고주파(세부) 계수를 각각 제공하므로, 네트워크가 각 계수에 특화된 특징을 학습하도록 설계할 수 있다.
제안된 구조는 크게 세 부분으로 나뉜다. 첫 번째는 입력 LR 이미지를 2‑레벨 Haar 웨이브릿 변환으로 분해해 LL, LH, HL, HH 네 개의 서브밴드로 만든다. 두 번째는 각 서브밴드에 맞춤형 컨볼루션 블록을 적용하는 서브 네트워크이다. 저주파 LL은 전통적인 잔차 블록(ResNet)으로 전역적인 구조와 색상 정보를 보존하고, 고주파 LH·HL·HH는 얇은 텍스처와 에지 정보를 강조하기 위해 깊은 DenseNet‑style 블록과 스케일‑어텐션 메커니즘을 결합한다. 세 번째는 이들 서브밴드 출력을 역웨이브릿 변환으로 재조합한 뒤, 최종적으로 GAN 디코더가 고해상도 이미지를 생성한다. 디코더는 판별기와 생성기로 구성되며, 판별기는 멀티스케일 PatchGAN을 채택해 로컬 텍스처와 전역 일관성을 동시에 평가한다.
손실 함수는 네 가지 요소를 포함한다. (1) 픽셀‑레벨 L1 손실은 기본적인 색상 정확도를 유지하고, (2) VGG‑19 기반 퍼셉추얼 손실은 시각적 품질을 향상시키며, (3) 고주파 전용 L1 손실은 웨이브릿 고주파 계수의 복원을 직접적으로 압박하고, (4) 적대 손실은 판별기의 피드백을 통해 자연스러운 노이즈와 텍스처를 생성한다. 이러한 복합 손실 설계는 기존 SRGAN이 겪던 고주파 과소복원을 효과적으로 완화한다.
실험에서는 VOC2012 데이터셋을 이용해 4배 초해상도 모델을 학습했으며, 평가에는 널리 사용되는 Set5, Set14, BSD100, Urban100을 채택했다. PSNR와 SSIM에서는 기존 SRGAN 대비 평균 0.30.5dB, 0.020.04 포인트 상승했으며, 특히 Urban100과 같이 구조가 복잡한 이미지에서는 LPIPS 점수가 15% 이상 감소해 인간 지각 품질이 크게 개선된 것을 확인했다. 시각적 비교에서도 고주파 에지와 텍스처가 선명하게 복원되어, 기존 방법이 흐릿하게 처리하던 부분이 뚜렷하게 드러난다.
이 논문의 핵심 기여는 (1) 웨이브릿 변환을 SRGAN에 자연스럽게 통합해 고주파와 저주파를 별도 처리함으로써 복원 품질을 향상시킨 점, (2) 고주파 전용 손실 함수를 도입해 텍스처 디테일을 정량적으로 강화한 점, (3) 멀티스케일 판별기를 활용해 전역·국부 일관성을 동시에 만족시킨 점이다. 한계점으로는 Haar 웨이브릿에 국한된 설계와 4배 확대에 최적화된 구조라서 다른 확대 비율이나 다른 웨이브릿(예: Daubechies) 적용 시 추가 연구가 필요하다는 점을 들 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기