조명 무관 특징 가이드와 다중 스케일 공간 융합을 활용한 저조도 이미지 향상 네트워크

DST‑Net은 저조도 이미지의 조명‑독립적인 신호 사전(feature prior)을 추출하고, 이를 교차‑모달 어텐션으로 강화된 듀얼 스트림 트랜스포머에 전달한다. 동시에 다중 스케일 공간 융합 블록(MSFB)을 통해 3D‑그라디언트 연산과 의사‑3D 컨볼루션을 적용해 고주파 에지를 복원한다. 실험 결과 LOL 데이터셋에서 PSNR 25.64 dB를 달성했으며, 다양한 장면에 대한 일반화 능력도 입증하였다.

저자: Yicui Shi, Yuhan Chen, Xiangfei Huang

조명 무관 특징 가이드와 다중 스케일 공간 융합을 활용한 저조도 이미지 향상 네트워크
본 논문은 저조도 이미지 향상 분야에서 조명에 민감한 신호 손실과 고주파 디테일 소실이라는 두 가지 근본적인 한계를 동시에 극복하고자 하는 목표로, Dual‑Stream Transformer Network(DST‑Net)를 제안한다. DST‑Net은 크게 세 부분으로 구성된다. 1. **조명‑무관 특징 추출 모듈** - 입력 저조도 이미지 I∈ℝ^{H×W×3}에 대해 Difference of Gaussians(Dog) 필터를 적용해 저주파 구조를 강조하고, LAB 색공간 변환을 통해 색채 정보를 조명 변화에 강인하게 만든다. - 사전 학습된 VGG‑16 네트워크를 이용해 텍스처 레벨의 고차원 특징을 추출한다. - 위 세 가지 소스를 채널 차원에서 concat 후 1×1 Conv로 차원 축소해 ‘조명‑독립 사전(feature prior)’을 생성한다. 이 사전은 이미지 스트림과 별도의 보조 스트림에 입력되어, 전체 강화 과정에서 지속적으로 피드백된다. 2. **듀얼 스트림 트랜스포머와 교차‑모달 어텐션** - 메인 스트림은 저조도 이미지 자체를 토큰화해 Transformer Encoder에 입력한다. 보조 스트림은 앞서 만든 사전 피처를 Key·Value로 사용한다. - Cross‑modal Attention을 통해 사전 피처가 메인 스트림의 노이즈‑오염된 표현을 실시간으로 보정한다. 이때 Query‑Key‑Value 연산은 기존 Self‑Attention과 동일한 복잡도를 유지한다. - 보정된 특징은 차별 가능한 곡선 추정 모듈에 전달돼, Zero‑DCE와 유사하게 반복적인 밝기 곡선을 학습한다. 곡선 파라미터는 네트워크 내부에서 역전파가 가능하도록 설계돼, 전역적인 밝기 상승과 지역적인 디테일 보존을 동시에 달성한다. 3. **다중 스케일 공간 융합 블록(MSFB)** - MSFB는 pseudo‑3D Conv와 실제 3D Gradient Operator(Sobel, Laplacian)를 결합한다. pseudo‑3D Conv는 2D Conv를 채널 차원에 걸쳐 연속 적용해 3D 연산의 효과를 흉내 내면서 연산량을 크게 절감한다. - 병렬 다중 스케일(1×1, 3×3, 5×5) Conv를 통해 다양한 수용 영역을 확보하고, 각 스케일에서 얻은 특징을 채널 차원에서 다시 융합한다. - 3D Gradient Operator는 고주파 에지를 명시적으로 강조해, 저조도 이미지에서 흔히 발생하는 블러와 디테일 손실을 효과적으로 보완한다. **학습 및 손실 함수** - 전체 네트워크는 L1 재구성 손실, 구조적 유사도(SSIM) 손실, 그리고 사전 피처와의 일관성을 강제하는 Feature‑Prior Consistency Loss를 동시에 최적화한다. - 또한, Gradient Loss를 추가해 복원된 에지가 원본 고주파와 일치하도록 유도한다. **실험 및 결과** - 주요 벤치마크인 LOL 데이터셋에서 PSNR 25.64 dB, SSIM 0.89, LPIPS 0.12를 기록, 기존 최첨단 방법들(Zero‑DCE++, KinD, Retinex‑Net 등)을 모두 능가하였다. - LSRW‑N, LSRW‑H 데이터셋에서도 높은 일반화 성능을 보이며, 특히 색채 정확도와 구조 보존 측면에서 눈에 띄는 개선을 확인했다. - Ablation Study에서는 (1) 사전 없이 단일 스트림만 사용했을 때 PSNR가 1.8 dB 감소, (2) MSFB를 제거했을 때 고주파 복원력이 크게 저하되는 등 각 모듈의 기여도를 정량적으로 입증하였다. - 파라미터 수는 약 7.2 M, FLOPs는 12.5 G로, 동일 수준의 성능을 보이는 최신 Transformer 기반 모델과 비교해 경쟁력 있는 효율성을 유지한다. **의의 및 향후 연구** DST‑Net은 ‘조명‑무관 사전 기반 피처 가이드’와 ‘다중 스케일 3D‑그라디언트 공간 융합’이라는 두 축을 통해 저조도 이미지 향상의 핵심 문제를 구조적으로 해결한다. 이는 단순 밝기 상승을 넘어, 색채 정확도, 구조 보존, 고주파 디테일 복원을 동시에 달성한다는 점에서 학술적 기여가 크다. 향후 실시간 모바일 디바이스에 최적화하거나, 저조도 물체 검출, 야간 SLAM, 자율주행 등 downstream 비전 과제에 사전 피처를 활용한 멀티‑모달 통합 방법으로 확장할 가능성이 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기