이미지 초해상도 트랜스포머 압축 기법 CompSRT

이미지 초해상도 트랜스포머 압축 기법 CompSRT
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 경량화된 초해상도 트랜스포머 SwinIR‑light에 Hadamard 변환 기반 양자화와 스칼라 분해를 적용해 비트폭을 24비트로 낮추면서도 PSNR·SSIM에서 기존 최첨단(CondiQuant)보다 최대 1.53 dB, 0.03 SSIM 향상을 달성한다. 또한 34비트 영역에서 40 % 가중치 프루닝을 수행해 비트당 파라미터 수를 6.67 %~15 % 감소시키면서 성능 저하를 최소화한다.

상세 분석

CompSRT는 두 가지 핵심 아이디어를 결합한다. 첫째, Hadamard 변환을 사전 처리 단계에 삽입해 가중치·활성화 텐서의 분포를 정규화한다. 통계적 검증(Shapiro‑Wilk, Wilcoxon 부호‑순위 검정) 결과, 변환 후 분포는 평균에 집중되고 범위가 현저히 축소되며, 0 근처에 위치한 값의 비율(pε)이 유의하게 증가한다. 이는 양자화 시 클리핑 범위가 작아져 양자화 오류가 감소하고, 특히 작은 비트폭(2~4비트)에서 정밀도 손실을 억제한다는 메커니즘을 실증한다. 둘째, 기존 양자화 스칼라 S와 제로 오프셋 l을 각각 α, β라는 학습 가능한 파라미터로 분해한다. 이 두 자유도는 양자화 스칼라와 제로 포인트를 미세 조정하게 하여, 양자화 과정에서 발생하는 편향을 보정하고 역전파 경로를 다변화한다. Ablation 실험에서 α·β를 도입한 경우 PSNR가 평균 0.12 dB, SSIM이 0.004 포인트 상승하는 등 실질적인 성능 향상이 확인되었다.

양자화와 프루닝을 동시에 적용한 점도 주목할 만하다. Hadamard 변환이 0 근처에 값을 집중시키는 특성을 활용해, 절대값이 작은 40 % 가중치를 제거해도 손실이 최소화된다. 3‑bit와 4‑bit 설정에서 각각 6.67 %와 15 %의 비트당 파라미터 감소를 달성했으며, 이는 기존 CondiQuant 대비 동일하거나 약간 높은 PSNR/SSIM을 유지한다. 프루닝 기준은 전통적인 magnitude‑based 방식을 그대로 사용했으며, 프루닝 후 재학습 단계 없이도 양자화 파라미터 재조정만으로 충분한 성능을 확보한다.

전체 실험은 DIV2K, Set5, Manga109 등 표준 SR 데이터셋에서 수행됐으며, 특히 2‑bit × 4 배율에서 +1.53 dB PSNR, +0.03 SSIM 향상을 기록했다. 시각적 비교에서도 기존 2DQuant이 보이는 블러 현상이 크게 감소하고, 텍스처와 에지 복원이 더 선명하게 나타난다. 통계적 유의성 검정(p < 0.05)과 효과 크기(Cohen’s d > 0.8) 모두 제안 방법의 우수성을 뒷받침한다.

요약하면, CompSRT는 Hadamard 변환을 통한 분포 정규화와 스칼라 분해 기반 양자화 파라미터 최적화를 결합해, 초해상도 트랜스포머 모델을 극단적인 저비트 환경에서도 고성능을 유지하도록 만든 혁신적인 압축 프레임워크이다.


댓글 및 학술 토론

Loading comments...

의견 남기기