경량형 깊이‑가이드 이미지 디블러링을 위한 웨이브렛 기반 네트워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 모바일 라이다가 제공하는 깊이 지도와 이산 웨이브렛 변환(DWT)을 결합해, 고성능을 유지하면서 연산량을 크게 줄인 경량 이미지 디블러링 모델 EDIBNet을 제안한다. 저주파 서브밴드만을 신경망이 처리하고, 깊이 정보를 효율적인 어댑터 모듈을 통해 융합함으로써 FLOPs와 메모리를 100배 이상 감소시키면서도 최신 SOTA 모델에 근접한 PSNR·SSIM을 달성한다.

상세 분석

EDIBNet은 크게 네 가지 핵심 설계 요소로 구성된다. 첫째, 입력 이미지를 2‑레벨 Haar DWT로 변환해 LL, LH, HL, HH 서브밴드로 분해한다. 저주파 LL(2) 서브밴드는 원본 해상도의 1/4에 해당하지만 구조적 정보를 풍부히 담고 있어 디블러링에 가장 중요한 역할을 한다. 고주파 서브밴드(LH, HL, HH)는 디블러링 단계에서 직접 역변환으로 복원에 사용되며, 신경망 연산에서 제외함으로써 공간 복잡도를 크게 낮춘다.

둘째, 저주파 서브밴드들을 채널 차원으로 concat한 뒤, 3×3 컨볼루션을 통해 특징 맵 h를 만든다. 이때 채널 수 C는 16, 32, 64 등 경량화된 값으로 설정해 메모리 사용량을 최소화한다.

셋째, U‑Net 형태의 인코더‑디코더 백본을 적용한다. 인코더는 스트라이드 컨볼루션으로 점진적으로 해상도를 감소시키며, 각 레벨에 Residual Block을 삽입해 표현력을 보강한다. 디코더는 업샘플링과 스킵 연결을 통해 저주파 특징을 복원하고, 각 레벨마다 깊이 어댑터(Adapter) 모듈을 배치한다.

넷째, 깊이 어댑터는 라이다에서 얻은 깊이 맵을 1×1 컨볼루션·정규화 후 bias‑adjustment 레이어를 거쳐 이미지 특징과 결합한다. 이후 chunking‑spatial‑conditioning 메커니즘으로 depth‑guided prompt를 생성하고, 이를 이미지 특징에 곱해 구조적 가이드를 제공한다. 마지막으로 경량 채널 어텐션을 적용해 중요한 채널을 강조한다. 이 설계는 깊이 정보를 효과적으로 활용하면서도 파라미터 수와 연산량을 최소화한다.

실험에서는 ARKitScenes 데이터셋의 RGB‑D 쌍을 이용해 29k 장을 학습하고, 500 장을 검증에 사용하였다. 블러는 표준 커널을 랜덤하게 적용해 시뮬레이션했다. 결과적으로 EDIBNet(32) 모델은 Jetson Orin Nano에서 0.2 s(720p) 내에 추론이 가능했으며, FLOPs와 메모리는 기존 Transformer 기반 SOTA(예: Restormer, IPT) 대비 100배 이상 감소했다. PSNR은 30.1 dB, SSIM은 0.92 수준으로, 동일 데이터셋에서 학습된 NAFNet·Depth‑NAFNet 등과 비교해 0.3 dB 이하의 차이만 보였다.

이 논문은 (1) 웨이브렛 변환을 통한 저주파 중심 처리, (2) 깊이 어댑터를 이용한 멀티모달 융합, (3) 경량 U‑Net 구조라는 세 축을 결합해 모바일/엣지 환경에서도 실시간 디블러링이 가능하도록 만든 점이 가장 큰 공헌이다. 또한 고주파 서브밴드를 완전히 무시하는 것이 실제 디테일 복원에 큰 영향을 주지 않음을 실험적으로 입증함으로써, 이미지 복원 분야에서 “필요 최소 정보”에 대한 새로운 관점을 제시한다. 향후 연구에서는 어댑터 모듈을 더욱 압축하거나, 비정형 라이다 노이즈에 대한 강인성을 높이는 방향으로 확장 가능할 것이다.

경량형 깊이‑가이드 이미지 디블러링을 위한 웨이브렛 기반 네트워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기