GPU 하드웨어 인코더 저지연 영상 스트리밍 성능 분석

초록

본 논문은 NVIDIA, Intel, AMD GPU에 탑재된 하드웨어 인코더의 Low‑Latency와 Ultra Low‑Latency 모드를 4K UHD 영상에 적용해 레이트‑디스토션(RD) 성능과 종단‑대‑종단(E2E) 지연을 평가한다. 결과는 하드웨어 인코더가 소프트웨어 대비 지연을 크게 줄이며, Ultra Low‑Latency 모드가 품질 저하 없이 83 ms(5프레임)까지 지연을 감소시킴을 보여준다.

상세 분석

본 연구는 4K UHD(3840×2160, 60 fps) 영상을 대상으로 세 가지 주요 GPU 제조사(NVIDIA, Intel, AMD)의 최신 하드웨어 인코더를 선정하였다. 각 인코더는 HEVC(Main 10)와 AV1 코덱을 지원하며, ‘Normal‑Latency’, ‘Low‑Latency’, ‘Ultra Low‑Latency’ 세 가지 튜닝 옵션을 제공한다. 실험 환경은 동일한 입력 비트스트림, 동일한 품질 프리셋(QP 22~28) 및 동일한 네트워크 조건을 유지하도록 설계되었으며, 지연 측정은 프레임 입력 시점부터 디코더 출력 시점까지의 전체 파이프라인을 포함하는 E2E 지연을 기준으로 한다.

레이트‑디스토션(RD) 성능 평가는 PSNR‑Y와 VMAF 점수를 사용했으며, 하드웨어 인코더와 대표적인 소프트웨어 인코더(x264, x265, libaom) 간의 품질 차이를 정량화하였다. 결과는 하드웨어 인코더가 ‘Normal‑Latency’ 모드에서도 소프트웨어 대비 평균 0.5 dB 이상의 PSNR 향상 또는 VMAF +2~3점 상승을 보였으며, 이는 전용 인코딩 블록과 고정‑점 연산 최적화 덕분임을 확인했다.

‘Low‑Latency’ 모드에서는 인코더 내부 버퍼 크기가 감소하고, 인코딩 파이프라인이 프레임당 1~~2 ms 추가 지연을 초래한다. 그러나 품질 측면에서는 QP 동일 조건에서 PSNR이 평균 0.2 dB 감소하고 VMAF이 1~~2점 하락하는 정도에 그쳐, 실용적인 품질 저하는 미미했다.

‘Ultra Low‑Latency’ 모드에서는 버퍼를 거의 사용하지 않으며, 인코더가 프레임당 1 ms 이하의 처리 시간을 목표로 설계된다. 실험 결과, 세 제조사의 인코더 모두 5 프레임(≈83 ms) 이하의 E2E 지연을 달성했으며, 품질 지표는 ‘Low‑Latency’와 거의 차이가 없었다. 특히, 품질 프리셋 변화(QP 22→28)에 따른 지연 변동이 1 ms 이하로 거의 무시할 수준이었으며, 이는 하드웨어 인코더가 품질 제어와 지연 제어를 독립적으로 최적화할 수 있음을 의미한다.

또한, 코덱별 차이를 살펴보면 AV1 하드웨어 인코더는 HEVC 대비 초기 지연이 약 5 ms 더 높았지만, 동일한 Ultra Low‑Latency 설정에서 최종 E2E 지연은 90 ms 이하로 수렴했다. 이는 AV1의 복잡한 인트라‑프레임 구조가 아직 최적화 단계에 있음을 시사한다.

종합적으로, 하드웨어 인코더는 소프트웨어 대비 평균 10배 이상의 지연 감소(소프트웨어 평균 800 ms 대비 80 ms)를 달성하면서도, 품질 면에서는 동등하거나 약간 우수한 성능을 제공한다. 특히 Ultra Low‑Latency 모드는 6G 시대의 초저지연 스트리밍, 클라우드 게이밍, 원격 AR/VR 등에 적합한 기술적 기반을 제공한다.