실시간 저조도 이미지 향상을 위한 초경량 모델 FLOL

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FLOL은 푸리에 도메인과 공간 도메인을 결합한 두 단계 구조로, 저조도 이미지의 조명 강화와 노이즈 제거를 동시에 수행한다. 12 ms 이하의 처리 속도로 1080p 영상을 실시간으로 복원하며, 파라미터 수와 FLOPs에서 기존 최첨단 모델보다 10배 이상 효율적이다. LOLv2, LSRW, MIT‑5K, UHD‑LL 등 실세계 벤치마크에서 경쟁력 있는 PSNR/SSIM을 기록한다.

상세 분석

본 논문은 저조도 이미지 향상(LLIE) 분야에서 효율성과 실제 환경 적응성을 동시에 만족시키는 경량 모델 FLOL을 제안한다. 핵심 아이디어는 입력 이미지를 푸리에 변환하여 진폭(amplitude) 성분을 조명 정보의 주요 매개변수로 활용하고, 위상(phase) 성분은 그대로 보존하는 ‘Fourier Illumination Enhancement(FIE)’ 단계와, 이후 공간 도메인에서 SNR 맵을 이용해 노이즈와 색 왜곡을 정제하는 ‘Denoiser’ 단계로 구성된 2‑stage 파이프라인이다.

FIE 단계에서는 입력을 2‑D FFT로 변환한 뒤, 메타포머(Metaformer) 기반의 FIE‑Block 안에 ‘Free‑Process’ 라는 푸리에 전용 FFN을 삽입한다. 이 FFN은 NAFNet에서 차용한 simple‑gate 구조를 사용해 채널 수 16으로 제한된 저차원 특징을 처리한다. 진폭 성분은 저해상도(½)로 다운샘플링 후 모듈 맵(Module Map)을 예측하고, 이를 원본 진폭에 element‑wise division 방식으로 적용해 조명을 강화한다. 위상은 변형 없이 역 FFT(iFFT)로 복원되어 중간 결과 x_lol을 만든다. 이 단계는 조명 복원에 큰 효과를 보이지만, 고감도 노이즈와 압축 아티팩트가 남는다.

두 번째 Denoiser 단계에서는 x_lol과 원본 y를 채널 차원에서 concat한 뒤, 스트라이드 3×3 Conv 기반 인코더를 통해 특징을 추출한다. 인코더 출력은 공간 브랜치와 푸리에 브랜치로 분리되며, 푸리에 브랜치는 다시 FFT‑IFFT 루프를 통해 전역 정보를 보강한다. 동시에 SNR‑map을 계산해 두 브랜치의 출력을 가중합(F = O_S × R + O_F × (1‑R))함으로써 저조도 영역의 신호대잡음비가 낮은 부분에 더 강한 노이즈 억제를 적용한다. 디코더는 픽셀 셔플(PixelShuffle) 업샘플링을 사용해 고해상도 복원을 수행하고, 최종 출력에 전역 residual 연결을 더해 원본 이미지 정보를 보존한다.

효율성 측면에서 FLOL은 전체 파라미터 수가 약 0.18 M(180 K) 수준이며, FLOPs는 7×~10× 정도 감소한다. 1080p 입력에 대해 RTX 3080 기준 12 ms 이하의 처리 시간을 기록했으며, 이는 Retinexformer(175 ms)와 FourLLIE(≈6 ms, 하지만 파라미터·FLOPs가 훨씬 큼)보다 현저히 빠르다. 성능 면에서는 LOLv2‑Real에서 PSNR 19.10 dB, SSIM 0.5833을 달성했으며, LSRW, UHD‑LL, MIT‑5K에서도 경쟁 모델에 근접하거나 상위권을 차지한다. 특히 파라미터 대비 성능 비율이 뛰어나, 모바일·임베디드 환경에서도 적용 가능성을 시사한다.

한계점으로는 푸리에 진폭 강화가 전역 조명 변화를 주로 다루기 때문에, 매우 복잡한 지역적 조명 변화가 있는 장면에서는 세밀한 디테일 복원이 부족할 수 있다. 또한 현재는 고정된 2‑stage 구조이며, 동적 상황(예: 비디오 연속 프레임)에서 시간적 일관성을 보장하기 위한 추가 모듈이 필요하다. 향후 연구에서는 푸리에‑공간 교차 attention을 강화하고, 비지도 학습 기반의 도메인 적응 기법을 결합해 OOD 상황에 대한 강인성을 높이는 방향이 기대된다.

실시간 저조도 이미지 향상을 위한 초경량 모델 FLOL

초록

상세 분석

댓글 및 학술 토론

의견 남기기