텍스트투비디오 가속을 위한 캐시 어텐션 CHAI
초록
CHAI는 텍스트‑투‑비디오 확산 모델의 순차적 디노이징 과정을 가속화하기 위해, 엔터티 수준의 교차‑인퍼런스 캐시와 새로운 Cache Attention 메커니즘을 도입한다. 30‑50 단계가 필요하던 기존 모델을 8 단계만으로도 고품질 영상을 생성하도록 하며, OpenSora 1.2 대비 1.65×‑3.35×의 속도 향상을 달성한다.
상세 분석
본 논문은 텍스트‑투‑비디오 확산 모델이 3차원(시간·공간) 라텐트를 순차적으로 디노이징해야 하는 구조적 한계 때문에 추론 지연이 크게 발생한다는 점을 출발점으로 삼는다. 기존의 가속화 방법은 크게 두 갈래로 나뉜다. 첫 번째는 모델 자체를 재학습하거나 스케줄러를 개선해 단계 수를 줄이는 방식으로, 이는 높은 재학습 비용과 특정 아키텍처에 대한 종속성을 야기한다. 두 번째는 intra‑inference 캐싱으로, 동일 추론 과정 내에서 인접 단계 사이의 특징 변화가 작을 때 중간 라텐트를 재사용해 연산을 건너뛰는 기법이다. 그러나 비디오에서는 초기 단계에서 구조적 변동이 크기 때문에, 이 방법은 품질 저하 없이 큰 단계 수를 건너뛰기 어렵다.
CHAI는 이러한 한계를 넘어, “엔터티 수준 교차‑인퍼런스 캐싱”이라는 새로운 패러다임을 제시한다. 전체 프롬프트는 서로 다르지만, 많은 비디오 프롬프트가 공통 객체(예: 자동차, 호랑이) 혹은 배경(예: 해변, 숲)을 공유한다는 관찰에 기반한다. 이를 위해 논문은 두 가지 핵심 기술을 설계한다. 첫째, Entity Extractor와 벡터 데이터베이스를 이용해 프롬프트에서 객체·장면 엔터티를 추출하고, 기존 라텐트와 엔터티 임베딩을 매핑한다. 둘째, Cache Attention이라는 변형된 Self‑Attention 모듈을 도입한다. 기존 STDiT 블록의 Spatial Self‑Attention을 대체하며, Query(Q)는 현재 디노이징 단계의 프롬프트‑조건화된 가우시안 노이즈를, Key와 Value(K,V)는 캐시된 라텐트에서 추출된 엔터티‑특화 특징을 사용한다. 이렇게 하면 모델은 현재 프롬프트와 가장 연관된 엔터티 정보를 선택적으로 끌어올 수 있어, 불필요한 노이즈 주입을 방지한다.
실험에서는 OpenSora 1.2를 백본으로 30‑step 기준 라텐트를 캐시하고, 8‑step 추론 시 2·3·4 단계에만 Cache Attention을 적용한다. 캐시 용량을 1‑5 GB로 제한했음에도 엔터티 기반 히트율이 80 % 이상에 달했으며, 결과 영상은 30‑step 기준 품질과 거의 차이가 없었다. 특히, 동일 엔터티를 포함한 “파티 온 비치”와 “아름다운 해변” 프롬프트를 비교했을 때, CHAI는 NIR‑VANA‑VID가 남긴 잡음과 배경 혼합 현상을 크게 감소시켰다. 전체 시스템은 1.65×‑3.35×의 속도 향상을 보였으며, 이는 기존 intra‑inference 캐시가 제공하던 한계(품질 저하)를 뛰어넘는 성과이다.
이러한 설계는 (1) 엔터티 수준의 유사성을 활용한 캐시 매칭, (2) 캐시된 라텐트를 전체가 아니라 Key‑Value 쌍으로만 활용해 프롬프트‑조건화된 Query가 적절히 선택하도록 함, (3) 초기 단계에서는 Query가 순수 노이즈이므로 캐시 사용을 피하고, 2‑4 단계에만 제한적으로 적용해 저장 비용과 노이즈 전파를 최소화한다는 점에서 혁신적이다. 또한, 캐시 관리 정책(LRU)과 저장소 설계가 실시간 서비스 환경에서도 확장 가능하도록 고려된 점이 실용성을 높인다.
요약하면, CHAI는 텍스트‑투‑비디오 확산 모델의 고비용 디노이징 과정을 엔터티‑레벨 캐시와 선택적 어텐션 재구성을 통해 크게 단축하면서도 품질을 유지하는, 훈련‑프리(Training‑Free) 가속화 프레임워크라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기