비주얼 정보 충실도 기반 비트레이트 사다리 자동 설계
초록
**
본 논문은 압축 전 원본 영상에서 추출한 Visual Information Fidelity(VIF) 특징을 활용해 VMAF 품질을 예측하고, 이를 통해 전통적인 고정 비트레이트 사다리와 비교해 평균 15 % 이상의 BD‑Rate 절감과 3.7 점의 BD‑VMAF 향상을 달성하는 콘텐츠‑특화 비트레이트 사다리 구축 방법을 제안한다.
**
상세 분석
**
이 연구는 기존의 per‑title 인코딩이 요구하는 R × B 번의 전면 압축 작업을 회피하기 위해, 전혀 새로운 특징 집합을 도입한다. VIF는 Gaussian Scale Mixture(GSM) 모델을 기반으로 이미지 서브밴드별 정보를 정량화하는 전통적인 FR 품질 지표이며, VMAF 파이프라인에 이미 내장돼 있다. 저자는 VIF를 네 개의 스케일(각 2개 서브밴드)에서 추출하고, 각 서브밴드의 고유값 λ와 스케일 파라미터 s를 이용해 9가지 특징 세트를 정의한다. 여기에는 (1) 순수 공간 VIF 평균, (2) 비트레이트·해상도 메타데이터와 결합한 특징, (3) 프레임 차이 영상에 대한 VIF, (4) 평균 절대 밝기 차이(MAD) 등 다양한 조합이 포함된다.
특징은 모든 프레임에 대해 평균 풀링한 뒤, 비트레이트(b), 정규화된 가로·세로(w/3840, h/3840)와 함께 하나의 벡터로 결합된다. 이렇게 만든 입력을 대상으로 Extra‑Trees, XGBoost, Random Forest 등 여러 회귀 모델을 학습했으며, 실험에서는 Extra‑Trees가 일관적으로 가장 높은 예측 정확도를 보였다.
데이터셋은 4K 해상도(3840 × 2160) 영상을 64프레임씩 추출한 BVT‑1004K를 사용했으며, 70개의 학습, 10개의 검증, 20개의 테스트 영상으로 분할하였다. 압축은 libx265(중간 프리셋)와 8가지 해상도, CRF 18‑50 범위로 수행했으며, 압축 후 VMAF와 VIF를 계산해 라벨을 만든다.
예측된 VMAF를 기반으로 목표 비트레이트(0.25 ~ 10.5 Mbps)마다 가장 높은 품질을 제공하는 해상도를 선택한다. 모델 오차로 인한 비단조성 문제를 해결하기 위해 고비트레이트에서 저비트레이트로 내려가며 해상도가 감소하도록 후처리한다.
평가 결과, 제안된 9가지 특징 중 “I_k,b
댓글 및 학술 토론
Loading comments...
의견 남기기