작을수록 강하다: 생성 모델로 짧은 동영상 프리로드 혁신
초록
PromptPream은 영상 프리로드 시 픽셀 데이터를 전송하는 대신, Stable Diffusion 같은 생성 모델이 복원할 수 있는 압축된 텍스트 프롬프트와 토큰 임베딩을 전송한다. 그래디언트 기반 프롬프트 인버전, 계산‑인식 스케줄링, 그리고 Monte‑Carlo 트리 탐색을 결합해 네트워크 대역폭과 디코딩 지연을 동시에 최소화한다. 실험 결과 기존 H.265 기반 프리로드 대비 정지시간·대역폭 낭비를 31 % 이상 줄이고, QoE를 45 % 향상시켰다.
상세 분석
본 논문은 짧은 동영상 플랫폼에서 흔히 발생하는 “정지‑낭비 트레이드오프”를 근본적으로 해소하고자 한다. 핵심 아이디어는 영상 데이터를 픽셀 수준으로 전송하는 대신, Stable Diffusion과 같은 최신 텍스트‑투‑이미지 생성 모델이 이해할 수 있는 시맨틱 프롬프트와 학습된 토큰 임베딩을 전송하는 것이다. 이를 위해 저자들은 세 가지 기술적 기여를 제시한다.
첫 번째는 그래디언트 기반 프롬프트 인버전이다. 원본 프레임을 이미지‑투‑텍스트 모델로 변환한 뒤, “
두 번째는 계산‑인식 스케줄링이다. 프롬프트 기반 디코딩은 GPU·NPU에서 수백 밀리초에서 초 단위까지 소요되므로, 단순히 대역폭만 절감하는 것이 아니라 디코딩 지연을 고려한 전역 최적화가 필요하다. 저자는 각 청크에 대해 시각 품질(q), 품질 변동(v), 정지 시간(σ), 대역폭 비용(b) 네 가지 메트릭을 정의하고, 이를 가중합한 점수 f 를 기반으로 다운로드·디코드 순서를 결정한다. 또한 H.265 청크와 프롬프트 청크를 혼합 인코딩하고, CPU‑VD, GPU‑Diffusion, NPU‑Diffusion을 병렬로 활용해 하드웨어 자원을 최대한 활용한다.
세 번째는 Monte‑Carlo 트리 서치 기반의 대규모 의사결정 탐색이다. 프롬프트와 전통 코덱, 다양한 비트레이트, 다운로드·디코드 순서가 결합되면 가능한 스케줄링 조합이 기하급수적으로 증가한다. 이를 해결하기 위해 저자는 MCTS에 가지치기(pruning) 전략을 적용해 비현실적인 경로를 조기에 배제하고, 제한된 탐색 시간 내에 근사 최적 해를 찾는다.
시스템 구현은 인코더(프레임 → H.265 + 프롬프트), 서버(다중 버전 저장), 클라이언트(계산‑인식 스케줄러)로 구성된다. 특히 키프레임에만 프롬프트 인버전을 적용하고, 나머지 B/P 프레임은 저비트레이트 H.265로 압축하는 하이브리드 방식을 채택해 디코딩 부하를 크게 낮추면서도 전체 비트레이트를 절감한다.
평가에서는 PDAS 시뮬레이터와 실제 모바일 네트워크 트레이스를 사용해 기존 최첨단 프리로드 알고리즘과 비교하였다. 결과는 정지 시간과 대역폭 낭비를 각각 평균 31 % 이상 감소시키고, 사용자 QoE 점수를 45 % 향상시켰다. 특히 네트워크가 불안정하거나 사용자가 빠르게 스크롤할 때, 프롬프트 기반 청크가 빠르게 재생 준비가 가능해 정지 현상이 크게 완화된다.
이 논문은 **‘컴퓨팅을 대역폭의 대체재로 활용’**한다는 새로운 패러다임을 제시함으로써, 모바일 영상 스트리밍에서의 효율성을 크게 끌어올릴 수 있음을 입증한다. 다만, 현재는 고성능 GPU·NPU가 전제되어 있어 저사양 디바이스에서의 적용 가능성, 프롬프트 인버전 과정의 에너지 소비, 그리고 생성 모델의 저작권·보안 이슈 등 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기