실시간 고화질 비디오 복원을 위한 저비트 양자화 기술 QuantVSR

실시간 고화질 비디오 복원을 위한 저비트 양자화 기술 QuantVSR
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

QuantVSR는 확산 기반 실시간 비디오 초해상도 모델을 4‑6비트 수준으로 양자화하면서, 시간·공간 복잡도를 정량화해 레이어별 저‑랭크 FP 브랜치를 동적으로 할당하고, 학습 가능한 바이어스 정렬 모듈로 양자화 편향을 보정한다. 실험 결과, FP 모델 대비 84% 파라미터와 82% 연산량을 절감하면서도 시각·정량적 품질을 거의 유지한다.

상세 분석

본 논문은 실제 영상에 적용 가능한 확산 기반 비디오 초해상도(VSR) 모델을 저비트 사후 양자화(Post‑Training Quantization, PTQ) 방식으로 압축하는 새로운 프레임워크인 QuantVSR를 제안한다. 확산 모델은 뛰어난 복원 성능을 제공하지만, 다중 단계 디노이징 과정에서 수백 메가플롭스와 수십 기가바이트 메모리를 요구해 실시간 서비스에 부적합하다. 기존 PTQ 기법은 이미지·텍스트 생성 분야에서는 성공을 거두었으나, VSR은 (1) 프레임 간 일관성을 유지해야 하는 시간적 일관성 손실, (2) 복잡하고 비정형적인 공간·시간 특징 분포라는 두 가지 고유 난관에 직면한다.

QuantVSR는 이러한 문제를 해결하기 위해 두 가지 핵심 설계를 도입한다. 첫 번째는 Spatio‑Temporal Complexity Aware (STCA) 메커니즘이다. 캘리브레이션 데이터셋을 이용해 각 레이어 입력의 시간 복잡도 (C_t)와 공간 복잡도 (C_s)를 각각 프레임 차이 에너지와 채널별 표준편차로 정의하고, 상·하한 임계값을 기준으로 레이어별 저‑랭크 FP 브랜치의 랭크 (r)를 동적으로 조정한다. 복잡도가 높은 레이어는 높은 랭크를 할당받아 원본 가중치 (W)를 저‑랭크 근사 (L_1L_2)와 잔차 (R)로 분해하고, 저‑비트 브랜치에서는 Hadamard 변환 후 정수 양자화를 수행한다. 이렇게 하면 고비트 정보가 FP 브랜치에 보존되는 동시에, 저‑비트 브랜치의 연산량은 크게 감소한다. 두 번째는 Learnable Bias Alignment (LBA) 모듈이다. 저‑비트 양자화는 스케일·제로 포인트에 의존하는데, 특히 4‑bit 이하에서는 편향(bias) 오류가 급격히 증폭된다. LBA는 각 레이어의 편향 파라미터에 학습 가능한 보정값을 추가함으로써, 양자화 후 출력과 FP 출력 사이의 평균 제곱 오차(MSE)를 최소화한다.

학습 과정은 세 단계로 구성된다. (1) 캘리브레이션 단계에서 (C_t, C_s)를 계산하고 랭크를 할당한다. (2) 저‑랭크 행렬 (L_1, L_2)와 잔차 (R)를 미세조정해 FP와 저‑비트 두 브랜치를 동시에 최적화한다. (3) 모든 파라미터를 고정한 뒤 LBA만을 학습해 양자화 편향을 정밀 보정한다. 손실 함수는 FP 모델과 양자화 모델 출력 간의 MSE이며, STE(직접 전파) 기법을 사용해 양자화 연산의 미분 가능성을 확보한다.

실험에서는 최신 확산 기반 VSR 백본인 MGLD‑VSR을 대상으로 4‑bit 및 6‑bit 양자화를 수행했다. MVSR4x와 같은 실제 비디오 데이터셋에서 PSNR/SSIM은 FP 대비 0.1dB 이하 차이로 유지되었으며, 파라미터와 연산량은 각각 84.39%와 82.56% 감소했다. 또한, 기존 저‑비트 양자화 방법인 ViDiT‑Q와 SVDQuant을 능가하는 성능을 보였으며, 시각적 비교에서도 흐림 현상이나 시간적 끊김이 거의 없었다. Ablation 연구를 통해 STCA의 랭크 할당이 없을 경우 성능이 급격히 저하되고, LBA를 제외하면 4‑bit에서 편향 오류가 눈에 띄게 증가함을 확인했다.

QuantVSR는 (1) 비디오 특유의 시간·공간 복잡도를 정량화해 효율적인 저‑랭크 FP 브랜치를 설계하고, (2) 학습 가능한 바이어스 정렬로 저‑비트 양자화의 편향을 보정함으로써, 실시간 엣지 디바이스에서도 확산 기반 VSR을 적용할 수 있는 실용적인 솔루션을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기