하이브리드 잔차·주의 네트워크를 이용한 초고해상도 이미지 복원
본 논문은 단일 저해상도 이미지로부터 고해상도 이미지를 복원하는 SISR 문제에 대해, 잔차 그룹 내에 다중 스케일 공간 어텐션과 채널 어텐션을 동시에 적용한 하이브리드 잔차 주의 블록(HRAB)을 제안한다. 또한 인접 잔차 그룹의 특징을 1×1 컨볼루션으로 순차적으로 결합하는 이진화 특징 융합(BFF) 구조를 도입해 깊은 네트워크에서도 저·중·고수준 특징을 효율적으로 전달한다. 전역·단기·장기 스킵 연결을 활용해 학습 안정성을 높였으며, 다양…
저자: Abdul Muqeet, Md Tauhid Bin Iqbal, Sung-Ho Bae
본 논문은 단일 저해상도 이미지로부터 고해상도 이미지를 복원하는 Single Image Super‑Resolution(SISR) 문제에 대해, 기존 딥러닝 기반 방법들이 공간 정보와 채널 정보를 별도로 혹은 비효율적으로 활용하는 한계를 지적한다. 이를 해결하기 위해 저자들은 ‘Hybrid Residual Attention Network(HRAN)’라는 새로운 네트워크 아키텍처를 제안한다.
HRAN은 크게 두 단계, 즉 ‘특징 추출’과 ‘재구성’으로 구성된다. 특징 추출 단계는 얕은 특징 추출(shallow feature extraction)과 깊은 특징 추출(deep feature extraction)로 나뉜다. 얕은 단계에서는 두 개의 3×3 convolution을 통해 입력 LR 이미지 I_LR에서 초기 특징 맵 F0와 F1을 얻으며, F0는 전역 잔차 연결을 위해 나중에 다시 사용된다. 깊은 단계에서는 Residual Group(RG)이라는 블록을 여러 개 쌓고, 각 RG 내부에 Hybrid Residual Attention Block(HRAB)을 배치한다.
HRAB는 두 가지 어텐션 메커니즘을 하나의 블록에 결합한다. 첫 번째는 ‘공간 어텐션’으로, 서로 다른 팽창 계수(dilation factor)를 갖는 3×3 dilated convolution을 병렬로 연결해 다양한 스케일의 수용 영역을 확보한다. 이를 통해 미세한 텍스처와 큰 구조 정보를 동시에 포착한다. 두 번째는 ‘채널 어텐션’으로, Squeeze‑Excitation 방식에 기반해 각 채널의 중요도를 학습하고, 중요 채널에 가중치를 부여한다. 이렇게 공간·채널 어텐션을 동시에 적용함으로써 특징 맵의 표현력을 크게 향상시킨다.
HRAN의 또 다른 핵심은 ‘Binarized Feature Fusion(BFF)’ 구조이다. 기존의 Hierarchical Feature Fusion(HFF) 방식은 모든 중간 특징을 concatenate하고 1×1 convolution으로 차원을 축소했지만, 이는 중복 정보와 메모리 사용량을 크게 늘렸다. BFF는 RG 단위로 특징을 묶고, 인접한 두 RG의 출력 특징을 채널 차원에서 concat한 뒤 1×1 convolution을 적용해 중복을 제거한다. 이 과정을 재귀적으로 반복해 최종적으로 하나의 특징 맵만 남긴다. 결과적으로 저·중·고수준 특징이 순차적으로 ‘이진화’되어 전달되며, 깊은 네트워크에서도 특징 손실을 최소화한다.
스킵 연결 측면에서 HRAN은 세 가지 레벨의 연결을 도입한다. (1) 전역 스킵(global skip)은 초기 얕은 특징 F0와 깊은 특징 출력 사이에 직접 더해 전역 잔차 학습을 구현한다. (2) 단기 스킵(short skip)은 각 HRAB 내부에서 입력과 출력 사이에 잔차 연결을 두어 그래디언트 흐름을 원활하게 만든다. (3) 장기 스킵(long skip)은 RG 간에 LSC(long skip connection)를 두어 깊은 네트워크에서도 특징 손실을 최소화한다. 이러한 다중 스킵 설계는 vanishing gradient 문제를 완화하고 학습 안정성을 크게 향상시킨다.
재구성 단계에서는 HRAN이 추출한 최종 특징 맵을 기반으로 이미지 업샘플링을 수행한다. 저자는 MSRN에서 사용한 재구성 모듈을 차용해 PixelShuffle, deconvolution 등 다양한 업샘플링 방식을 지원하도록 설계했으며, 이를 통해 2×, 3×, 4× 등 다양한 배율에 대해 동일한 네트워크 구조를 적용할 수 있다.
실험에서는 DIV2K, Set5, Set14, B100, Urban100 등 표준 데이터셋을 사용해 PSNR 및 SSIM 지표를 측정하였다. HRAN은 EDSR, RCAN, MSRN 등 기존 최첨단 모델에 비해 0.1~0.3dB 정도의 PSNR 향상을 보였으며, 특히 Urban100과 같은 고주파 텍스처가 풍부한 데이터셋에서 눈에 띄는 개선을 보였다. 파라미터 수와 FLOPs 측면에서도 HRAN은 기존 모델 대비 약 30~40% 정도 적은 연산량을 요구하면서도 동등하거나 더 높은 복원 품질을 달성했다.
Ablation Study에서는 (i) HRAB의 공간 어텐션만 사용했을 때와 채널 어텐션만 사용했을 때의 성능 차이를 분석했으며, 두 어텐션을 결합했을 때 가장 큰 성능 향상이 나타났음을 확인했다. (ii) BFF를 제거하고 기존 HFF를 적용했을 경우, 메모리 사용량이 크게 증가하고 PSNR가 감소함을 보였다. (iii) 전·단·장기 스킵 연결을 각각 제거했을 때 학습 수렴 속도가 느려지고 최종 성능이 저하되는 것을 확인했다.
결론적으로, HRAN은 (1) 다중 팽창 dilated convolution 기반의 효율적 공간 어텐션, (2) 채널 어텐션을 결합한 하이브리드 블록, (3) 인접 RG 간 1×1 convolution 기반 이진화 융합, (4) 전·단·장기 스킵 연결이라는 네 가지 설계 요소를 통해 깊고 넓은 네트워크의 장점을 유지하면서도 연산 효율성과 복원 정확도를 동시에 개선한 모델이다. 향후 연구에서는 이러한 구조를 비디오 초해상도, 멀티스펙트럼 이미지 복원 등 다른 복원 분야에 확장하는 방안을 모색할 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기