딥러닝 기반 VP9 인트라 블록 분할 예측으로 인코딩 속도 70% 향상

본 논문은 VP9 인트라 모드에서 64×64 슈퍼블록을 RDO 기반으로 재귀 분할하는 과정을 대체하기 위해, 계층형 완전합성곱신경망(H‑FCN)을 이용해 4단계 분할 트리를 사전 예측한다. 대규모 Netflix 영상 데이터베이스를 구축하고 학습한 모델을 VP9 인코더에 통합함으로써 평균 69.7%의 인코딩 시간 감소와 1.71% BD‑rate 증가라는 효율적인 트레이드오프를 달성하였다. 또한 기존 VP9 최고 속도 레벨보다 더 높은 속도와 낮은…

저자: Somdyuti Paul, Andrey Norkin, Alan C. Bovik

딥러닝 기반 VP9 인트라 블록 분할 예측으로 인코딩 속도 70% 향상
본 논문은 최신 비디오 코덱인 VP9의 인트라 모드 인코딩에서 가장 큰 연산 부담을 차지하는 슈퍼블록(64×64) 분할 과정을 딥러닝으로 대체하는 새로운 프레임워크를 제시한다. VP9은 4단계의 계층적 분할 트리를 통해 블록을 최대 4×4까지 세분화하며, 각 단계마다 네 가지 후보(분할 안 함, 수평, 수직, 4분할)를 RDO(비율‑왜곡 최적화)로 평가한다. 이 과정은 가능한 트리 구조가 기하급수적으로 늘어나면서 인코딩 속도를 크게 저하시킨다. 저자들은 이러한 문제를 해결하기 위해 “분할 → 합병” 역방향 접근을 채택한다. 가장 작은 4×4 블록부터 시작해 상위 레벨(8×8, 16×16, 32×32)로 갈수록 블록을 병합하는 형태로 트리를 구성한다. 이를 위해 계층형 완전합성곱신경망(H‑FCN)을 설계했으며, 입력은 64×64 라우마 블록, 출력은 네 개의 매트릭스(M0~M3)로 각각 레벨별 병합 유형을 나타낸다. 각 매트릭스 원소는 0~3 사이의 정수값으로, 해당 위치에서 선택된 병합 방식을 의미한다. 따라서 문제는 4레벨, 4클래스의 다중 레벨 다중 클래스 분류 문제로 변환된다. 데이터 구축 단계에서는 Netflix의 영화와 TV 시리즈에서 89편의 영화와 17편의 에피소드를 선택해 3가지 해상도(1920×1080, 1280×720, 960×540)로 인코딩하였다. VP9 디코더를 수정해 각 슈퍼블록에 대한 원본 라우마 픽셀(S), 내부 QP값(Q), 그리고 RDO가 선택한 분할 트리(P)를 기록했다. 전체 데이터셋은 학습용 11,990,384개, 검증용 4,698,195개 샘플을 포함하며, QP 범위는 8~105(외부 QP 0~63에 대응)로 실제 스트리밍 환경을 반영한다. 경계에 존재하는 제로 패딩 블록은 제외했으며, 콘텐츠와 CGI 비율을 기준으로 학습·검증·테스트 셋을 완전히 겹치지 않게 분리하였다. 학습된 H‑FCN은 기존 VP9 인코더에 삽입되어, 인코더가 슈퍼블록을 처리할 때 먼저 모델이 예측한 병합 트리를 받아 RDO 탐색 범위를 크게 축소한다. 실험은 “good” 품질 설정을 기준으로 수행했으며, 평균 인코딩 시간은 69.7% 감소했다. 비트레이트 대비 화질 저하를 나타내는 Bjøntegaard‑Delta 비트레이트(BD‑rate) 상승은 1.71%에 머물렀다. 특히 VP9이 제공하는 가장 빠른 속도 레벨(레벨 1)보다도 더 높은 속도와 더 낮은 BD‑rate를 달성, 기존 속도‑품질 트레이드오프를 능가함을 입증했다. 관련 연구와 비교했을 때, 이전의 HEVC 분할 예측 방법들은 60%~66% 정도의 속도 향상에 2~2.5% BD‑rate 상승을 보였다. 본 논문의 접근은 더 높은 속도 향상과 더 낮은 BD‑rate 증가를 동시에 달성했으며, 특히 VP9 인트라 모드에 특화된 최초의 완전한 트리 예측 모델이라는 점에서 의미가 크다. 한계점으로는 현재 인터 모드와 복합 프레임에 대한 적용이 없으며, 모델이 학습된 콘텐츠와 유사한 영상에 대해 높은 정확도를 보이지만, 완전히 새로운 시각적 특성을 가진 영상에 대한 일반화는 추가 검증이 필요하다. 또한 H‑FCN은 현재 4레벨 구조에 최적화돼 있어, VVC와 같이 더 깊은 트리를 갖는 차세대 코덱에 적용하려면 모델 확장이 요구된다. 향후 연구 방향으로는 (1) 인터 모드와 멀티프레임 예측에 대한 확장, (2) 시간적 컨텍스트를 포착하기 위한 LSTM·Transformer 기반 구조 도입, (3) 멀티스케일 피처와 어텐션 메커니즘을 결합한 하이브리드 네트워크 설계, (4) 실제 스트리밍 서비스 환경에서의 실시간 적용 가능성 평가 등이 제시된다. 이러한 연구는 비디오 코덱의 전통적인 블록 기반 파이프라인을 딥러닝 중심으로 전환하는 중요한 발판이 될 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기