공간 다운샘플링으로 효율성을 높인 심층 디모자이싱 네트워크
초록
본 논문은 모바일 환경에 적합하도록, 기존의 등방성(isotropic) 네트워크가 공간 다운샘플링을 활용하면 연산량을 크게 줄이면서도 디모자이싱 및 잡음 제거 성능을 향상시킬 수 있음을 실험적으로 입증한다. 제안된 JD3Net은 간단한 전형적 컨볼루션 구조에 다운샘플링·픽셀 셔플을 적용한 모델로, 다양한 CFA 패턴과 JDD 과제에서 기존 최첨단 모델 대비 높은 PSNR와 낮은 FLOPs를 달성한다.
상세 분석
이 논문은 모바일 사진 처리에서 가장 기본이면서도 계산량이 큰 디모자이싱 작업을 경량화하기 위한 새로운 설계 패러다임을 제시한다. 기존의 등방성 네트워크는 전체 해상도를 유지하면서 깊은 잔차 블록을 쌓는 구조를 취했으며, 이는 초고해상도 복원이나 초해상도와 같은 작업에서는 효과적이지만, 디모자이싱처럼 입력 이미지 자체가 이미 고해상도인 경우에는 FLOPs가 급증한다는 단점이 있었다. 저자들은 이러한 문제점을 해결하기 위해 “공간 다운샘플링”을 의도적으로 도입한다. 핵심 아이디어는 입력 CFA 패턴을 d×d 크기의 컨볼루션으로 먼저 다운샘플링하고, 이후 동일한 해상도를 유지하는 등방성 블록을 B개 쌓은 뒤, 마지막에 픽셀 셔플(PixShuffle)과 1×1 컨볼루션을 통해 원래 해상도로 복원하는 것이다.
네트워크 설계 단계에서 저자들은 두 가지 중요한 방법론을 결합한다. 첫 번째는 DeepMAD에서 영감을 받은 “제로샷 신경망 구조 탐색(Zero‑Shot NAS)”이다. 기존 DeepMAD는 엔트로피 기반 점수를 사용해 폭‑깊이 비율(ρ)과 FLOPs 제약 하에 최적 구조를 찾았지만, 이미지 복원에서는 입력 해상도에 따라 엔트로피가 크게 변한다는 한계가 있었다. 이를 보완하기 위해 저자들은 최종 피처 맵의 채널 밀도(채널 수 ÷ d²)만을 고려하는 수정된 엔트로피 식을 제안하고, 이를 기반으로 폭(w), 깊이(B), 다운샘플링 비율(d)을 최적화한다. 두 번째는 구조적 단순성이다. 기존 고성능 디모자이싱 모델들은 복잡한 어텐션 메커니즘(NAFNet, ESUM 등)을 포함하지만, JD3Net은 이러한 어텐션을 제거하고 순수 컨볼루션 블록만을 사용한다. 실험 결과, 어텐션을 제거해도 성능 저하가 없으며 오히려 경량화에 도움이 됨을 보여준다.
실험에서는 두 가지 규모의 모델을 설계했다. JD3Net‑S는 25 GFLOPs(256×256 입력) 수준으로 모바일 친화적이며, JD3Net은 128 GFLOPs로 보다 높은 성능을 목표로 한다. 두 모델 모두 다운샘플링 비율 d가 34인 경우가 최적임을 확인했으며, 동일 FLOPs 조건에서 다운샘플링을 적용하지 않은 버전보다 평균 PSNR가 0.20.3 dB 향상되었다. 특히 JD3Net‑S는 기존 최첨단 ESUM 모델 대비 0.1 dB 낮은 PSNR를 보이면서도 16배 빠른 추론 속도를 기록했다. 또한, 다양한 CFA 패턴(전통 Bayer, 비‑Bayer, Quad‑Bayer HybridEVS)과 ISO 3200~6400의 고노이즈 환경에서도 일관된 우수성을 입증했다.
이 논문의 주요 공헌은 다음과 같다. (1) 등방성 네트워크에 공간 다운샘플링을 적용하면 FLOPs‑대‑성능 효율이 크게 개선된다는 실증적 증거를 제공한다. (2) DeepMAD 기반의 엔트로피 최적화를 이미지 복원에 맞게 변형하여, 입력 해상도에 독립적인 설계 방법론을 제시한다. (3) 어텐션 없이도 충분히 강력한 디모자이싱 성능을 달성할 수 있음을 보여, 경량화 설계의 새로운 방향을 제시한다. 이러한 결과는 모바일 ISP 파이프라인에 직접 적용 가능하며, 향후 다양한 이미지 복원 작업(노이즈 제거, 색 보정 등)에도 다운샘플링 기반 등방성 구조가 유용할 것임을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기