비국소 주의 최적화 딥 이미지 압축
본 논문은 VAE 기반 이미지 압축 프레임워크에 비국소 연산과 주의 메커니즘을 결합한 NLAIC 모델을 제안한다. 인코더·디코더와 하이퍼프라이어 양쪽에 비국소 모듈을 삽입해 전역·국부 상관관계를 동시에 포착하고, 비국소‑주의 모듈(NLAM)에서 생성된 마스크를 통해 특징별 비트 할당을 자동으로 조절한다. 또한 3D 마스크드 CNN을 이용해 공간·채널 이웃 정보를 활용한 조건부 엔트로피 모델을 구축한다. Kodak 데이터셋에서 PSNR·MS‑SS…
저자: Haojie Liu, Tong Chen, Peiyao Guo
본 논문은 이미지 압축 효율을 극대화하기 위해 변분 오토인코더(VAE) 기반 구조에 비국소 연산과 주의 메커니즘을 결합한 새로운 프레임워크인 NLAIC(Non‑Local Attention Optimized Deep Image Compression)를 제안한다. 기존 학습 기반 압축기들은 대부분 지역적인 컨볼루션만을 사용해 제한된 수용 영역으로 전역적인 상관관계를 포착하지 못한다는 한계가 있었다. 이를 해결하기 위해 저자는 인코더·디코더와 하이퍼프라이어 양쪽에 비국소 모듈(NLM)을 삽입하고, 비국소‑주의 모듈(NLAM)에서 생성된 연속형 마스크를 통해 피처별 비트 할당을 자동으로 조절한다.
비국소 모듈은 입력 피처 X의 모든 위치 i, j 사이의 유사도 f(X_i, X_j)를 계산하고, 이를 softmax 정규화한 뒤 가중 평균을 수행한다. 구체적으로, θ와 φ를 1×1 컨볼루션으로 구현한 뒤 임베디드 가우시안 형태의 f를 사용해 효율적인 행렬 연산으로 변환한다. 결과 Y는 잔차 연결을 통해 원본 X와 합쳐져 Z = W_z·Y + X 형태로 출력된다. 이 연산은 이미지와 잠재 피처 모두에 적용되어 전역적인 텍스처·구조 정보를 학습한다.
NLAM은 두 개의 병렬 브랜치를 갖는다. 메인 브랜치는 전통적인 잔차 블록을 쌓아 피처를 변환하고, 마스크 브랜치는 NLM 뒤에 3개의 잔차 블록과 1×1 컨볼루션, 시그모이드 함수를 적용해 마스크 M = sigmoid(F_NLM(X))를 만든다. M은 0~1 사이의 연속값으로, 메인 브랜치의 피처와 원소별 곱해져 비트 할당을 조절한다. 기존 연구와 달리 이 마스크는 별도의 비트 오버헤드 없이 학습 과정에서 최적화되며, 다양한 레이어에 적용돼 다중 스케일의 중요도를 반영한다.
엔트로피 코딩 단계에서는 하이퍼프라이어 z와 잠재 피처 y를 각각 팩터화된 밀도와 조건부 가우시안으로 모델링한다. 하이퍼프라이어는 전통적인 비정규화된 유니베리어트 분포와 uniform 잡음(U(-½,½))을 합성해 압축하고, 이를 통해 y의 평균 μ와 표준편차 σ를 예측한다. 추가적으로, 5×5×5 마스크드 3D CNN을 사용해 y의 공간·채널 이웃을 조건부 확률에 포함한다. 3D 마스크는 현재 위치보다 앞선 모든 위치(공간·채널 모두)를 사용해 파라미터 수를 크게 줄이면서도 효과적인 자동 회귀 모델을 제공한다.
학습 데이터는 COCO와 CLIC에서 무작위로 추출한 192×192×3 패치를 사용했으며, 라그랑주식 비용 L = λ·d(ĥx, x) + R_y + R_z 를 최소화한다. 여기서 d는 MSE 혹은 부정 MS‑SSIM이며, λ는 비트‑품질 트레이드오프를 제어한다. 두 가지 손실 함수에 대해 별도 모델을 학습해, PSNR 최적화와 MS‑SSIM 최적화 모두에서 최첨단 성능을 달성한다.
실험은 Kodak 24장 이미지에 대해 수행되었다. NLAIC joint 모델(하이퍼프라이어 + 3D CNN 이웃)과 baseline 모델(하이퍼프라이어만 사용) 모두 Balle2019, Balle2018, Minnen2018 등 최신 학습 기반 압축기와 BPG, JPEG2000, JPEG 등 전통 압축기보다 높은 PSNR·MS‑SSIM 곡선을 보였다. 특히 저비트레이트 구간에서 비국소‑주의가 텍스처와 에지 영역에 더 많은 비트를 할당해 시각적 품질을 크게 향상시켰다. 하이퍼프라이어 비트 비중은 MSE 최적화 시 더 높게 나타났으며, MS‑SSIM 최적화 시에는 반대로 낮아지는 경향을 보였다.
본 논문의 주요 기여는 다음과 같다. (1) 비국소 연산을 압축 프레임워크에 최초 적용해 전역·국부 상관관계를 동시에 학습, (2) 비국소‑주의 마스크를 통해 명시적 오버헤드 없이 적응형 비트 할당 구현, (3) 3D 마스크드 CNN을 이용한 효율적인 조건부 엔트로피 모델 제시. 한계점으로는 비국소 블록과 3D CNN이 추가 연산량을 초래해 실시간 압축에 부담이 될 수 있다는 점, 하이퍼파라미터 선택에 대한 민감도 분석이 부족하다는 점이 있다. 향후 연구에서는 경량화, 다양한 해상도와 도메인에 대한 일반화, 그리고 하드웨어 친화적 구현 방안을 탐색할 필요가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기