조명 인식 미러 손실을 활용한 저조도 이미지 향상 자동인코더 단계적 학습
본 논문은 저조도 이미지 향상을 위한 자동인코더 학습에 교사‑학생 구조와 새로운 손실 함수인 Illumination‑Aware Mirror Loss(IAML)를 도입한다. 교사 네트워크는 깨끗한 이미지의 디코더 특징 맵을 생성하고, EMA 방식으로 지속적으로 업데이트된다. 학생 네트워크는 저조도 입력을 복원하면서 교사의 다중 스케일 특징과 일치하도록 IAML을 통해 정렬한다. 조명 밝기에 따라 가중치를 부여해 밝기 차이에 의한 왜곡을 방지한다.…
저자: Farida Mohsen, Tala Zaim, Ali Al-Zawqari
본 논문은 저조도 이미지 향상을 위한 자동인코더 학습 방법을 새롭게 제시한다. 기존 저조도 복원 연구는 주로 네트워크 구조와 전통적인 손실 함수(MSE, SSIM, perceptual loss)에 초점을 맞추었지만, 입력 이미지의 조명 차이에 따른 특징 스케일 불일치를 충분히 고려하지 못했다. 이를 해결하기 위해 저자들은 두 개의 자동인코더, 즉 교사(Teacher)와 학생(Student) 네트워크를 동시에 학습시키는 프레임워크를 설계하였다.
교사 네트워크는 깨끗한 이미지(I_clean)를 입력으로 받아 동일한 인코더 구조을 공유하면서도 디코더 파라미터는 학생 디코더 파라미터를 EMA(μ=0.999) 방식으로 부드럽게 따라가도록 업데이트한다. 이렇게 하면 교사 디코더는 점진적으로 “이상적인” 다중 스케일 특징 맵을 생성하게 되며, 학생 디코더는 저조도 이미지(I_low‑light)를 복원하는 과정에서 교사의 특징 맵을 목표로 삼는다. 교사 디코더는 gradient가 차단된 상태이므로 직접적인 최적화 대상이 아니며, 오히려 학생이 만든 특징을 따라가면서 안정적인 교사 역할을 수행한다.
핵심 기여는 Illumination‑Aware Mirror Loss(IAML)이다. IAML은 각 디코더 레이어 i에 대해 학생 특징 f_i^S와 교사 특징 f_i^T 사이의 L2 차이를 계산한다. 그러나 저조도와 정상 조명 이미지 사이의 밝기 차이로 인해 원시 L2 차이는 밝기 스케일에 크게 좌우된다. 이를 보정하기 위해 입력 저조도 이미지의 픽셀별 밝기 L_p를 RGB‑to‑luminance 변환(0.299·R + 0.587·G + 0.114·B)으로 구하고, min‑max 정규화 후 1+β(1‑L~_p) 형태의 가중치 W_p(β=0.6)를 만든다. 어두운 영역에 높은 가중치를 부여함으로써, 어두운 부분의 특징 정렬이 더 강하게 반영된다. 특징 맵은 채널‑와 공간‑표준화(μ, σ) 후, 가중치와 element‑wise 곱을 수행하고, 교사 특징에 stop‑gradient를 적용한다. 최종 손실은 모든 레이어에 대해 평균을 취한 뒤, 전체 손실에 MSE와 (1‑SSIM)와 λ·IAML(λ=0.8)을 가중합한다.
실험 설정은 U‑Net 백본에 CBAM 어텐션을 삽입해 멀티스케일 정보를 강화했으며, 256×256 패치와 수평·수직 플립을 이용한 데이터 증강을 적용했다. 학습은 Adam(lr=2e‑4, β1=0.9, β2=0.999)으로 500 epoch, cosine annealing 스케줄을 사용했으며, RTX 4090 GPU에서 수행되었다.
세 개의 공개 저조도 데이터셋(Lol‑v1, Lol‑v2‑Real, Lol‑v2‑Synthetic)에서 제안 방법은 SSIM, PSNR, LPIPS 모두에서 기존 최첨단 방법을 능가하거나 동등한 수준을 기록했다. 특히 Lol‑v1에서는 SSIM 0.876, LPIPS 0.0848으로 최고 점수를 받았으며, PSNR에서는 두 번째 자리를 차지했다. Lol‑v2‑Real과 Synthetic에서도 SSIM 0.855/0.932, LPIPS 0.058/0.058을 달성해 구조적 유사도와 인지적 품질 모두에서 우수함을 입증했다.
Ablation Study에서는 IAML을 제외한 MSE‑only, MSE+SSIM, MSE+SSIM+CosineSimilarity, MSE+SSIM+Standardized ℓ1 등 다양한 손실 조합을 비교했다. 결과는 IAML을 포함한 전체 구성(Entry 5)이 가장 높은 SSIM(0.888)과 경쟁력 있는 PSNR(23.37), LPIPS(0.098)를 보여, 조명 인식 가중치가 특징 정렬에 미치는 영향을 명확히 확인했다.
결론적으로, 교사‑학생 EMA 기반 구조와 조명 인식 미러 손실은 저조도 이미지 복원에서 특징 스케일 정렬 문제를 효과적으로 해결한다. 저자들은 향후 이 프레임워크를 다른 이미지 복원(예: 잡음 제거, 초해상도) 분야에 확장하여 일반화 가능성을 탐구할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기