수중 색 복원을 위한 U‑Net 디노이징 오토인코더

본 논문은 수중 로봇(ROV) 등에서 촬영된 영상의 색 왜곡을 실시간으로 보정하기 위한 새로운 딥러닝 모델인 Underwater Denoising Autoencoder(UD‑AE)를 제안한다. 기존 연구는 하드웨어 기반 보정(편광 필터, 스테레오 카메라 등)이나 GAN 기반 소프트웨어 보정에 초점을 맞추었으나, 전자는 비용과 설치 복잡성, 후자는 학습·추론 비용이 높아 실시간 적용에 제약이 있었다. UD‑AE는 이러한 문제점을 해결하고자, 단일 디노이징 오토인코더에 U‑Net 구조를 적용해 인코더‑디코더 사이에 스킵 연결을 두어 저해상도 특징을 고해상도 단계와 결합한다. 이를 통해 색상 복원과 동시에 구조적 디테일을 유지한다. 데이터 준비는 두 단계로 이루어진다. 첫째, 청정 이미지(A)와 왜곡된 이미지(B)를 각각 7 055장, 8 076장 수집한다. 청정 이미지는 수족관, 인공 조명 하의 근거리 촬영, 상업 소프트웨어로 전처리된 영상 등에서 확보했으며, 왜곡 이미지는 발트해 현장 촬영 및 인터넷에서 다양한 심도·탁도·온도 조건을 반영하도록 선택했다. 둘째, CycleGAN을 이용해 B의 스타일을 A에 전이시켜 A₀(왜곡된 버전) 를 생성한다. 이렇게 만든 A–A₀ 쌍을 5 194장으로 정제하여 훈련 데이터로 사용하였다. CycleGAN 학습은 4대 NVIDIA TITAN X GPU에서 약 9일이 소요되었다. UD‑AE의 네트워크는 U‑Net과 동일한 커널 크기(3×3)와 풀링·업샘플링 구성을 갖는다. 인코더는 2×2 맥스풀링을 통해 차원을 절반씩 감소시키며, 각 단계마다 특징 맵 수를 두 배로 늘린다. 디코더는 업샘플링 후 대응되는 인코더 출력과 concatenate하여 정보를 보강한다. 최종 출력은 3채널 RGB 이미지이며, 복원된 이미지가 청정 이미지와 유사하도록 손실 함수를 MS‑SSIM과 L1 손실의 가중합(L = 0.8·L_MS‑SSIM + 0.2·L_L1)으로 정의하였다. 가중치 감쇠는 적용하지 않았으며, 이는 입력 이미지에 내재된 노이즈가 정규화 역할을 하기 때문이다. 학습은 TensorFlow 환경에서 NVIDIA Quadro M5000 한 대로 약 1일 동안 진행되었고, 추론은 RTX 2080 Ti에서 이미지당 0.016 초(≈62 fps)의 속도로 실시간 처리 가능함을 보였다. 정량적 평가는 1 040장의 테스트 이미지(512×512)와 1 813장의 256×256 이미지에 대해 수행되었다. UD‑AE는 MSE 0.0028, SSIM 0.9653, MS‑SSIM‑L1 0.0753을 기록했으며, 동일 데이터셋에 대해 UGAN이 기록한 MSE 0.0061, SSIM 0.9186, MS‑SSIM‑L1 0.1415보다 현저히 우수했다. 처리 속도 역시 UGAN(0.0099 초/이미지)보다 약 2배 빠르다. 시각적 비교에서는 UD‑AE가 배경 복원, 색 밝기 재현, 고주파 디테일 보존 측면에서 UGAN을 능가함을 확인했다. 특히, UGAN이 발생시키는 halo 효과와 흐릿한 배경을 UD‑AE는 최소화하였다. 일부 사례에서는 청정 이미지 자체가 부분적으로 흐릿했음에도 불구하고 UD‑AE가 더 나은 색 복원을 보여, 모델이 학습된 분포를 넘어선 일반화 능력을 가지고 있음을 시사한다. 그러나 매우 복합적인 왜곡이나 극단적인 탁도 상황에서는 아직 한계가 있으며, 향후 더 다양한 합성·실제 데이터 확보가 필요하다. 결론적으로, UD‑AE는 단일 오토인코더 기반이면서도 U‑Net의 효율적인 구조를 활용해 실시간 수중 색 복원을 가능하게 한다. 정량·정성 평가 모두에서 최신 GAN 기반 방법을 능가하며, 비용·복잡도 측면에서도 실용적인 솔루션으로 평가된다. 향후 연구에서는 데이터 다양성 확대와 멀티스케일 피드백 메커니즘 도입을 통해 극한 환경에서도 안정적인 복원을 목표로 할 수 있다.

수중 색 복원을 위한 U‑Net 디노이징 오토인코더

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기