짧은 영상 학습만으로 긴 영상 생성 가능하게 하는 PackForcing

본 논문은 자동회귀 비디오 확산 모델이 장시간 영상을 생성할 때 직면하는 두 가지 핵심 문제—(1) KV‑cache가 시간에 따라 선형적으로 증가해 GPU 메모리를 초과하고, (2) 누적된 예측 오류가 장면 의미와 텍스트‑비디오 정렬을 급격히 저하시키는 문제—를 해결하기 위해 “PackForcing”이라는 통합 프레임워크를 제안한다. **1. 배경 및 동기** 최근 비디오 Diffusion 모델들은 5~15 초 정도의 짧은 클립에서 높은 화질과 복잡한 움직임을 구현했지만, 전체 시공간 볼륨을 한 번에 처리하는 구조는 메모리·연산 비용이 급증한다. 자동회귀 방식은 블록 단위로 순차 생성하면서 KV‑cache에 이전 블록의 키·밸류를 저장해 연속성을 유지하지만, 2 분 영상에서는 약 749 K 토큰, 138 GB 메모리가 필요해 실용성이 떨어진다. 기존 방법들은 히스토리를 잘라내거나 슬라이딩 윈도우를 적용해 메모리를 절감했지만, 장기 일관성을 크게 손상시킨다. **2. PackForcing의 핵심 설계** PackForcing은 히스토리를 세 파트로 구분한다. - **Sink 토큰**: 초기 프레임(8 프레임)만을 고해상도로 유지해 전역 의미(배경, 인물, 스타일)를 고정한다. 전체 토큰 대비 차지 비율이 매우 낮아 메모리 부담이 거의 없다. - **Mid 토큰**: 대부분의 히스토리를 차지하는 구간을 3D‑CNN + 저해상도 VAE 기반 Dual‑Branch Compression으로 32배 압축한다. HR 브랜치는 4단계 3D‑CNN으로 시공간 특징을 점진적으로 다운샘플링하고, LR 브랜치는 풀링 후 VAE 재인코딩을 수행한다. 두 브랜치의 출력은 요소별 합산돼 압축된 KV 쌍을 만든다. 압축 후 한 블록당 토큰 수는 6,240→182로 감소한다. - **Recent 토큰**: 현재 블록과 직전 몇 블록을 고해상도로 보관해 미세한 움직임과 텍스처를 정확히 재현한다. “Full‑to‑Reduced Exchange” 메커니즘을 통해 최근 토큰과 압축 토큰 사이의 정보 흐름을 원활히 한다. **3. 동적 컨텍스트 선택 및 RoPE 보정** 압축된 Mid 토큰 전체를 매번 사용하면 연산량이 급증한다. 따라서 Dynamic Context Selection을 도입해 현재 쿼리와의 어피니티 점수를 기반으로 가장 정보량이 높은 N_mid 블록만 선택한다(Top‑k). 선택된 토큰만 KV‑cache에 포함돼 연산량을 일정하게 유지한다. 선택 과정에서 토큰 인덱스 간격이 발생하면 Temporal RoPE Adjustment이 이를 보정한다. 기존 RoPE는 절대 위치에 의존하지만, 여기서는 시간 축에만 적용되는 연속적인 회전을 수행해 “갭”을 실시간으로 메꾼다. 이 과정은 추가 연산이 거의 없으며, 위치 불일치로 인한 어텐션 왜곡을 방지한다. **4. 메모리·연산 효율** 각 레이어당 최대 27,872 토큰(≈ 4 GB)만 캐시하면 된다. 2 분(832×480, 16 FPS) 영상을 단일 H200 GPU에서 생성할 수 있다. 이는 기존 방법이 요구하던 138 GB 대비 30배 이상 절감한다. **5. 학습 및 일반화** PackForcing은 5 초 길이의 클립만으로 학습하거나 제로샷으로도 동작한다. 압축·선택 메커니즘 덕분에 짧은 시퀀스에서 장기 시공간 패턴을 학습하고, 24배(5 s→120 s) 시간 외삽에서도 텍스트‑비디오 정렬(CLIP 점수)과 시각적 일관성을 유지한다. VBench 평가에서 Temporal Consistency 26.07, Dynamic Degree 56.25로 현존 최고 수준을 기록한다. **6. 실험 및 Ablation** - **Baseline 대비**: DeepForcing, RollingForcing 등과 비교해 KV‑cache 크기 4 GB에서 동일 혹은 우수한 품질을 달성. - **압축 비율**: 32× 압축이 없을 경우 메모리 초과·속도 저하, 압축 비율을 낮추면 품질은 유지되지만 메모리 절감 효과가 감소. - **Top‑k 선택**: k 값을 크게 하면 연산량이 늘지만 품질 향상이 미미, 작은 k(예: k = 8)에서도 충분히 안정적. - **RoPE 조정**: 보정 없이 토큰 갭이 발생하면 시간 일관성이 급격히 떨어짐을 확인. **7. 한계 및 향후 연구** 압축 과정에서 고속 움직임이나 미세 텍스처가 손실될 가능성이 있다. 또한 Top‑k 기준과 RoPE 파라미터가 데이터·작업에 따라 민감하게 작용하므로 자동 튜닝 기법이 필요하다. 향후에는 압축 네트워크를 더 경량화하거나, 멀티모달(오디오·텍스트)와 결합해 멀티스케일 컨텍스트 관리 방안을 탐구할 수 있다.

짧은 영상 학습만으로 긴 영상 생성 가능하게 하는 PackForcing

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기