경량 잔차 밀집 주의 네트워크를 이용한 RGB 이미지에서의 스펙트럼 재구성
본 논문은 RGB 이미지로부터 31개의 스펙트럼 밴드를 복원하기 위해, 파라미터 233,059개 수준의 경량 모델을 제안한다. 잔차 밀집 구조와 주의 메커니즘을 결합하고, 좌표 컨볼루션 블록을 통해 공간 정보를 효율적으로 추출한다. NTIRE 2020 데이터셋으로 학습한 결과 MRAE 0.0457을 달성하며, 높은 정확도와 낮은 연산 복잡도를 동시에 만족한
초록
본 논문은 RGB 이미지로부터 31개의 스펙트럼 밴드를 복원하기 위해, 파라미터 233,059개 수준의 경량 모델을 제안한다. 잔차 밀집 구조와 주의 메커니즘을 결합하고, 좌표 컨볼루션 블록을 통해 공간 정보를 효율적으로 추출한다. NTIRE 2020 데이터셋으로 학습한 결과 MRAE 0.0457을 달성하며, 높은 정확도와 낮은 연산 복잡도를 동시에 만족한다.
상세 요약
이 연구는 기존의 고성능 스펙트럼 복원 모델이 갖는 파라미터 폭증과 연산량 문제를 해결하고자, ‘경량 잔차 밀집 주의 네트워크(Light Weight Residual Dense Attention Net, LWRDAN)’를 설계하였다. 핵심 설계는 크게 네 부분으로 나눌 수 있다. 첫째, 좌표 컨볼루션 블록(Coordinate Convolutional Block, CoordConv)은 입력 RGB 이미지의 픽셀 좌표 정보를 명시적으로 학습에 반영함으로써, 전통적인 2D 컨볼루션이 놓치기 쉬운 위치 의존적 특성을 보강한다. 이는 특히 스펙트럼 복원에서 공간‑스펙트럼 상관관계를 정확히 포착하는 데 기여한다. 둘째, 이 블록의 가중치를 두 개의 독립적인 특징 추출 경로에 공유한다. 하나는 밀집 연결(dense connectivity)을 활용한 Residual Dense Block(RDB)으로, 다층 피처를 순환적으로 재사용해 풍부한 로컬 정보를 축적한다. 두 번째 경로는 다중 스케일 계층형 특징 추출(Multi‑Scale Hierarchical Feature Extraction, MS-HFE)으로, 서로 다른 receptive field를 가진 컨볼루션을 병렬 배치해 다양한 공간 스케일의 정보를 동시에 포착한다. 셋째, 두 경로에서 얻어진 피처 맵은 전역적인 어텐션 모듈을 통해 가중치가 부여된 후, 채널 차원에서 합쳐진다. 이 어텐션은 채널‑별 중요도를 동적으로 조정해, 복원에 핵심적인 스펙트럼 성분을 강조한다. 마지막으로, 통합된 피처는 1×1 컨볼루션을 거쳐 31개의 스펙트럼 밴드로 매핑된다. 전체 네트워크는 233,059개의 파라미터만을 사용해 경량성을 확보했으며, 이는 기존 최첨단 모델 대비 10배 이상 적은 수치이다. 학습은 NTIRE 2020 스펙트럼 복원 챌린지 데이터셋을 사용했으며, 손실 함수는 평균 절대 오차(MAE)와 구조적 유사도(SSIM)를 결합한 복합 손실을 적용해 스펙트럼 재현성 및 시각적 품질을 동시에 최적화하였다. 실험 결과, 제안 모델은 MRAE 0.0457을 기록했으며, 이는 파라미터 수 대비 매우 경쟁력 있는 성능이다. 또한, FLOPs와 메모리 사용량이 크게 감소해 모바일 및 임베디드 환경에서도 실시간 적용 가능성을 시사한다. 전체적으로, 좌표 정보를 활용한 가중치 공유, 밀집‑잔차 구조와 다중 스케일 어텐션의 조화는 경량 모델이면서도 고정밀 스펙트럼 복원을 달성하는 핵심 혁신이라 할 수 있다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...