DCT 기반 JPEG 아티팩트 제거를 위한 완전합성곱 신경망
초록
본 논문은 JPEG 압축에서 발생하는 블록·링잉·블러와 같은 아티팩트를 감소시키기 위해 세 가지 완전합성곱 네트워크(FCN) 모델을 제안한다. 첫 번째와 두 번째 모델은 8×8 DCT 필터를 사전 정의하거나 학습하도록 설계했으며, 세 번째 모델은 전통적인 3×3 합성곱만을 사용한다. BSDS500 데이터셋을 q=60 품질로 압축한 이미지에 대해 PSNR와 SSIM을 평가한 결과, 사전 정의된 DCT 레이어를 가진 모델이 가장 높은 PSNR(≈33 dB)와 비슷한 SSIM을 기록해 기존 AR‑CNN 대비 약간의 향상을 보였다.
상세 분석
이 연구는 JPEG 압축이 8×8 블록 단위로 DCT 변환을 수행한다는 사실을 네트워크 설계에 직접 반영한다는 점에서 독창적이다. 모델 1은 DCT 필터를 고정된 가중치(64개의 8×8 커널, 스트라이드 8)로 사용하고, 이후 3×3 합성곱 레이어와 잔차 블록을 연결한다. 모델 2는 동일한 구조이지만 DCT 레이어를 학습 가능하게 하여 데이터에 맞게 가중치를 조정한다. 모델 3은 DCT 레이어를 완전히 배제하고 순수 3×3 합성곱만으로 구성한다. 파라미터 수는 모델 1·2가 약 163 k, 모델 3가 77 k, 비교 대상인 AR‑CNN이 106 k로, 제안 모델이 상대적으로 가볍다. 실험에서는 BSDS500의 500여 장 사진을 8×8 블록으로 잘라 입력으로 사용했으며, 이미지 전체를 스케일링하지 않아 DCT 레이어와 정확히 일치하도록 했다. 학습 과정에서 PSNR는 약 32.8 dB로 수렴했으며, 테스트 시 모델 1이 평균 PSNR 32.90 dB, 모델 2가 32.76 dB, 모델 3가 32.51 dB, AR‑CNN이 32.23 dB를 기록했다. SSIM은 모든 모델이 0.96 ~ 0.98 범위로 거의 동일했으며, 이는 블록 아티팩트 제거 효과가 비슷함을 의미한다. 특히 사전 정의된 DCT 레이어가 학습된 레이어보다 약간 높은 PSNR를 보인 것은 고정된 DCT 필터가 JPEG의 변환 특성을 정확히 반영해 일반화 능력이 뛰어남을 시사한다. 그러나 세부 텍스처가 풍부한 이미지에서는 PSNR와 SSIM 모두 감소했으며, 이는 압축 손실 자체가 복구 불가능한 정보를 제거하기 때문이다. 전체적으로 이 논문은 JPEG와 동일한 변환 구조를 네트워크에 도입함으로써 파라미터 효율성을 높이고, 사전 정의된 변환 필터가 학습 기반 필터보다 일정 수준 이상의 성능을 유지할 수 있음을 실증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기