ExpandNet: LDR에서 HDR로 변환하는 다중 스케일 CNN
초록
본 논문은 저동적(dynamic) 범위가 제한된 LDR 영상을 입력으로 받아, 손실된 밝기와 색상 정보를 복원해 HDR 영상으로 확장하는 전용 CNN 구조인 ExpandNet을 제안한다. 로컬, 팽창(dilation), 글로벌 세 가지 병렬 브랜치를 활용해 다중 스케일 특징을 추출하고, 업샘플링 없이 1×1 합성곱으로 결합함으로써 블록 현상·밴딩 등 기존 업샘플링 기반 방법의 아티팩트를 최소화한다. 대규모 HDR 데이터셋을 이용한 감독 학습으로 훈련되며, 정량적·정성적 평가에서 기존 역톤매핑 기법 및 다른 CNN 기반 방법보다 우수한 성능을 보인다.
상세 분석
ExpandNet은 LDR→HDR 변환이라는 고차원 회귀 문제를 해결하기 위해 세 개의 전용 브랜치를 설계하였다. 로컬 브랜치는 5×5 수용 영역을 갖는 2단계 3×3 컨볼루션(채널 64→128)으로 픽셀 수준의 고주파 디테일을 보존한다. 팽창 브랜치는 dilation=2인 3×3 컨볼루션을 4층 사용해 17×17 수용 영역을 확보, 중간 주파수 정보를 효과적으로 포착한다. 글로벌 브랜치는 입력을 256×256으로 리사이즈한 뒤 stride‑2 컨볼루션을 7단계 적용해 최종 1×1 벡터(64차원)로 압축, 이미지 전역적인 조명·색조 컨텍스트를 학습한다. 세 브랜치의 출력은 채널 차원에서 concat 후 1×1 컨볼루션으로 융합하고, 마지막 3×3 컨볼루션을 통해 HDR RGB 값을 예측한다. 활성화 함수로 SELU를 채택해 배치 정규화 없이 자체 정규화 효과를 얻었으며, 손실 함수는 L1·L2 혼합과 함께 HDR 특성에 맞춘 톤 매핑 손실을 포함해 밝기 재현성을 강화한다. 데이터 증강 단계에서는 다양한 노출 수준과 크롭을 적용해 제한된 HDR 이미지 수를 효과적으로 확장하였다. 실험에서는 PSNR, SSIM, HDR‑VDP2 등 여러 메트릭에서 기존 글로벌·로컬 역톤매핑 기법과 U‑Net 기반 모델을 앞섰으며, 특히 과다·과소 노출 영역에서 블록·밴딩 아티팩트가 현저히 감소하였다. 업샘플링 레이어를 배제한 설계는 메모리·연산 효율성을 높이고, 훈련 안정성을 개선한다. 다만, 1×1 융합 단계에서 전역 벡터를 단순 복제하는 방식은 복잡한 공간적 변형을 완전히 반영하지 못할 가능성이 있으며, 초고해상도(>4K) 입력에 대한 확장성 검증이 부족한 점이 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기