과거와 미래를 활용한 KV 캐시 정책과 중요도 추정으로 효율적인 자동회귀 비디오 확산
초록
**
본 논문은 자동회귀 비디오 확산 모델에서 키‑밸류(KV) 캐시를 효율적으로 관리하기 위해, 과거와 미래 정보를 모두 고려한 “PaFu‑KV” 정책을 제안한다. 교사 모델에서 추출한 양방향 컨텍스트를 이용해 경량화된 중요도 추정 헤드(Salience Estimation Head)를 학습하고, 이를 통해 캐시 내에서 중요한 토큰만 유지·저장한다. 실험 결과, 캐시 용량을 크게 줄이면서도 고품질 비디오를 실시간에 가까운 속도로 생성할 수 있음을 보인다.
**
상세 분석
**
PaFu‑KV 정책은 자동회귀 비디오 확산에서 가장 큰 병목 중 하나인 KV 캐시 관리 문제를 근본적으로 재정의한다. 기존의 FIFO 혹은 단순한 주의점 기반 캐시 정책은 토큰의 시간적 중요도를 무시하고, 장시간 시퀀스에서 불필요한 정보를 축적한다. 저자들은 토큰 기여도가 시간에 따라 크게 변한다는 ‘시간 이질성(time‑heterogeneity)’을 관찰하고, 이를 정량화하기 위해 양방향 교사 모델에서 얻은 주의 행렬을 활용한다.
-
Salience Estimation Head (SEH)
- 교사 모델은 전체 비디오 시퀀스를 동시에 바라볼 수 있는 bidirectional self‑attention을 가지고 있어, 각 토큰이 과거와 미래에 미치는 영향을 정확히 평가한다.
- SEH는 이러한 교사 모델의 주의 분포를 Distribution Matching Distillation 방식으로 데이터‑프리(distillation without extra data) 학습한다. 즉, 교사의 주의 스코어를 목표 분포로 삼아 학생 모델이 동일한 중요도 점수를 예측하도록 한다.
- 경량화된 설계로 단일 레이어에만 삽입해도 충분히 높은 정확도의 salience score를 제공한다.
-
Spatial‑Temporal‑Balanced Salience Scoring
- 기존의 max‑attention 기반 중요도 추정은 대각선(시간 근접) 편향을 보이며, 장거리 시간 의존성을 놓친다. 저자들은 attention matrix를 lower, diagonal, upper 세 구역으로 나누어 각각의 최대값을 평균하고, 구역별 가중치를 다르게 적용한다.
- 구체적으로, 토큰이 초기 구간(LB)에서는 diagonal + lower를, 중간 구간에서는 lower + diag + upper를, 마지막 구간에서는 diagonal + upper를 사용해 최종 salience score를 계산한다. 이렇게 하면 과거·현재·미래의 상호작용을 균형 있게 반영한다.
-
캐시 관리 정책
- inference 시 SEH가 예측한 salience score를 기준으로, 사전에 정의된 비율(k = L/2 등) 이상의 점수를 가진 토큰만 KV 캐시에 남긴다. 낮은 점수의 토큰은 즉시 eviction 된다.
- 중요한 점은, 캐시 크기를 동적으로 조절하면서도 layer‑wise consensus를 활용해 한 레이어에서의 선택이 전체 레이어에 일관되게 적용된다는 점이다. 이는 추가 연산 없이도 높은 효율성을 확보한다.
-
실험 및 결과
- 주요 비디오 생성 벤치마크(UCF‑101, Kinetics‑600 등)에서 PaFu‑KV는 기존 FIFO 기반 모델 대비 메모리 사용량을 30‑40% 절감하면서도 PSNR/SSIM 등 품질 지표에서 0.1‑0.3 dB 수준의 미미한 손실만을 보였다.
- 특히 장시간(>30 초) 시퀀스에서 오류 누적이 크게 감소했으며, 평균 프레임당 추론 시간은 15‑20% 가량 단축되었다.
핵심 기여는 (1) 과거·미래 정보를 동시에 고려한 salience scoring 방법, (2) 데이터‑프리 distillation을 통한 경량 SEH 설계, (3) 이 점수를 기반으로 한 실시간 KV 캐시 축소 정책이다. 이러한 접근은 비디오 확산뿐 아니라, 장기 시퀀스가 요구되는 다른 생성 모델(예: 텍스트‑투‑비디오, 오디오‑시퀀스)에도 확장 가능성을 시사한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기