이질적 캐시로 가속하는 비디오 디퓨전 편집
초록
본 논문은 마스크 기반 비디오‑투‑비디오 편집 작업에서 디퓨전 트랜스포머(DiT)의 연산 중복을 최소화하기 위해, 시간 단계와 토큰 수준의 이질성을 동시에 고려한 훈련‑프리 캐싱 기법인 HetCache를 제안한다. 주요 토큰을 선택적으로 캐시하고, 변동이 큰 타임스텝에서는 전체 연산을 수행함으로써 평균 2.67배의 지연 감소와 FLOPs 절감을 달성하면서도 편집 품질 저하를 거의 보이지 않는다.
상세 분석
HetCache는 기존의 “타임스텝 레벨 캐싱”을 넘어, DiT 내부의 스페이셜‑템포럴 토큰 간 상호작용까지 분석한다. 먼저, 각 타임스텝에서 timestep‑embedding‑modulated 입력 Fₜ = Tₜ ⊙ xₜ 를 이용해 인접 타임스텝 간 L₁ 차이를 계산하고, 이를 누적하여 Dₐ→b 를 얻는다. Dₐ→b 값이 클수록 모델 출력이 크게 변한다는 신호이므로 해당 타임스텝을 “Full‑Compute”로 지정하고 캐시를 갱신한다. 반대로 작은 Dₐ→b 는 출력이 안정적임을 의미해 “Reuse” 혹은 “Partial‑Compute” 단계로 전환한다.
Full‑Compute 단계에서는 편집 마스크를 기반으로 토큰을 세 그룹으로 분류한다.
- Context 토큰: 마스크 외부의 일반 영역으로, 대량이지만 대부분 중복된 정보를 담고 있다.
- Margin 토큰: 마스크 경계 주변으로, 세밀한 경계 유지가 필요해 항상 완전 연산 대상이다.
- Generative 토큰: 마스크 내부로, 실제 내용 재생성이 이루어지는 핵심 토큰이다.
Context 토큰 중에서도 의미적 대표성을 가진 소수만을 선택하기 위해, 토큰을 의미 공간에서 클러스터링하고 각 클러스터의 중심 토큰을 “대표 Context 토큰”으로 선정한다. 이후, 이 대표 토큰과 Generative 토큰 사이의 attention 상호작용 강도를 측정해, 상호작용이 강한 토큰을 우선 캐시한다. 이렇게 선택된 토큰 집합은 이후 Partial‑Compute 단계에서 재사용되며, 나머지 Context 토큰은 계산에서 제외된다.
이 과정은 두 가지 핵심 장점을 제공한다. 첫째, 스파셜‑템포럴 상관관계가 높은 토큰만을 유지함으로써 불필요한 self‑attention 연산을 크게 줄인다. 둘째, Margin 토큰을 전부 보존함으로써 마스크 경계에서 발생할 수 있는 블러링이나 색상 불일치를 방지한다.
실험에서는 DiT‑B/2, DiT‑L 같은 최신 비디오 디퓨전 백본을 대상으로 VACE‑Benchmark 및 VP‑Bench에서 MV2V 편집(텍스트‑조건, 인페인팅 등)을 수행했다. HetCache 적용 시 평균 2.67×의 레이턴시 감소와 30% 이상 FLOPs 절감이 관찰됐으며, VFID, PSNR, SSIM 등 정량적 품질 지표는 기존 전체 연산 대비 0.01 이하의 차이만을 보였다. 또한, 다양한 마스크 형태(정사각형, 복잡한 객체 마스크)와 텍스트 프롬프트에 대해 일관된 성능 향상을 확인했다.
결과적으로 HetCache는 “시간‑토큰 이질성”을 정량화하고, 이를 기반으로 동적 캐시 정책을 수립함으로써, 훈련 없이도 비디오 디퓨전 편집의 실시간 적용 가능성을 크게 확대한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기