생성형 비디오 압축으로 영점일 퍼센트 수준 초극소 비트레이트 달성
본 논문은 최신 생성형 비디오 모델을 활용해 비디오를 극히 작은 토큰으로 압축하고, 수신 측에서 고품질 영상을 재생성하는 Generative Video Compression(GVC) 프레임워크를 제안한다. 0.02 % 수준의 압축률(0.005 bpp)까지 달성했으며, 인지 기반 품질 지표(LPIPS)와 영상 객체 분할(VOS) 등 다운스트림 작업에서도 기존 HEVC 대비 월등한 성능을 보인다. 또한 압축‑계산 트레이드오프 전략을 통해 소비자급 …
저자: Xiangyu Chen, Jixiang Luo, Jingyu Xu
이 논문은 2025년 12월에 발표된 “Generative Video Compression: Towards 0.01% Compression Rate for Video Transmission”이라는 연구를 상세히 분석한다. 저자들은 기존 비디오 코덱이 픽셀 수준의 신호 복원을 목표로 하는 Level A(기술적 문제) 접근에 머무르는 한계를 지적하고, Shannon‑Weaver 모델의 Level C(과제 지향) 관점에서 새로운 압축 프레임워크인 GVC(Generative Video Compression)를 제안한다. GVC는 최신 생성형 비디오 모델, 특히 14 B 규모의 확산 기반 모델을 활용해 비디오를 극히 작은 토큰 집합으로 압축하고, 수신 측에서 이 토큰을 조건으로 삼아 고품질 영상을 재생성한다.
프레임워크는 크게 두 부분으로 구성된다. 인코더는 원본 영상을 프레임‑레벨의 고차원 의미와 동작 정보를 담은 이산·연속 토큰으로 변환한다. 여기에는 압축된 키프레임, 비디오 구간의 고수준 설명자, 저레벨 연속 특징 등이 포함된다. 토큰은 잔차 코딩, 엔트로피 코딩 등 전통적인 비트스트림 압축 기법을 적용해 전송한다. 디코더는 사전 학습된 확산 기반 생성 비디오 모델을 사용해 토큰을 조건으로 삼아 프레임을 순차적으로 합성한다. 이 과정은 조건부 비디오 생성으로 볼 수 있으며, 모델은 학습된 사전 지식을 활용해 최소한의 입력으로도 시각적으로 사실적인 영상을 만들어낸다.
핵심 아이디어는 “계산을 전송으로 교환”한다는 점이다. 전통 코덱은 비트레이트를 낮추면 화질이 급격히 저하되지만, GVC는 복잡한 연산을 디코더 측에 집중시켜 전송 데이터량을 최소화한다. 이를 위해 저자는 두 가지 트레이드오프 전략을 제시한다. 첫 번째는 압축률을 극대화하기 위해 디코더의 연산량을 늘리는 것이며, 여기에는 대규모 확산 모델과 고해상도 샘플링이 포함된다. 두 번째는 실시간성 및 하드웨어 제약을 고려해 압축률을 약간 포기하고 모델을 경량화하는 전략이다. 경량화 방법으로는 3D VAE 압축, 지식 증류, 양자화, 그리고 DDIM과 같은 샘플링 가속 기법을 적용한다.
실험은 두 가지 축에서 수행되었다. 첫 번째는 인지 품질 평가로, 표준 비디오 데이터셋 MCL‑JCV에서 평균 비트레이트 0.008 bpp(≈0.02 % 압축)에서도 LPIPS 점수를 0.180까지 낮추어 HEVC(0.278) 대비 35 % 이상 개선하였다. 특히 일부 어려운 시퀀스에서는 HEVC가 0.035 bpp에서 얻는 LPIPS 0.319와 비교해 GVC는 0.0058 bpp에서 LPIPS 0.487을 달성, 동일 품질을 위해 필요한 비트레이트가 6배 이상 절감됨을 보여준다. 두 번째는 다운스트림 작업인 영상 객체 분할(VOS)에서의 성능이다. DAVIS‑2017 데이터셋에 대해 XMEM 모델을 적용했을 때, GVC(비트레이트 0.01 bpp)에서 J & F 점수가 79.28 %에 달했으며, 이는 HEVC(58.51 %)와 큰 차이를 보인다. 원본 영상 상한은 91.33 %로, GVC가 거의 원본에 근접한 의미 전달 능력을 갖추었음을 의미한다.
컴퓨팅 효율성 측면에서는 다양한 하드웨어에서의 지연 시간을 측정했다. 480p 해상도에서는 엔코더 0.2 s, 디코더 1.13 s(소비자급 GPU)로 실시간에 근접했으며, 1080p에서는 디코더 6.1 s(소비자급)까지 늘었지만, 모델 경량화와 샘플링 가속을 통해 여전히 실용적인 수준으로 유지되었다.
논문의 한계로는 대규모 사전 학습 모델이 필요해 초기 구축 비용이 높고, 디코더가 GPU에 의존한다는 점, 그리고 0.01 % 수준의 압축을 완전히 달성하기 위해서는 토큰 설계와 모델 스케일링에 추가 연구가 필요하다는 점을 들 수 있다. 또한 생성 모델 특성상 재현성 및 오류 전파에 대한 신뢰성 검증이 부족하다는 비판도 있다.
결론적으로, GVC는 비디오 압축의 새로운 패러다임을 제시한다. 전송 데이터량을 최소화하고, 수신 측에서 강력한 생성 모델을 활용해 인지·과제 중심의 고품질 영상을 제공한다. 이는 저대역폭 위성 통신, 긴급 구조, 모바일 엣지 컴퓨팅 등 다양한 제한 환경에서 실용적인 솔루션이 될 잠재력을 가지고 있다. 향후 연구는 모델 경량화, 다양한 도메인 적용, 그리고 오류 복원 메커니즘을 포함한 신뢰성 강화에 초점을 맞춰야 할 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기