디퓨전 트랜스포머 비디오 생성에 세계 지식 메모리를 주입하는 혁신적 접근

읽는 시간: 4 분
...

📝 Abstract

Diffusion Transformer (DiT) based video generation models have recently achieved impressive visual quality and temporal coherence, but they still frequently violate basic physical laws and commonsense dynamics, revealing a lack of explicit world knowledge. In this work, we explore how to equip them with a plug-and-play memory that injects useful world knowledge. Motivated by in-context memory in Transformer-based LLMs, we conduct empirical studies to show that DiT can be steered via interventions on its hidden states, and simple low-pass and high-pass filters in the embedding space naturally disentangle low-level appearance and high-level physical/semantic cues, enabling targeted guidance. Building on these observations, we propose a learnable memory encoder DiT-Mem, composed of stacked 3D CNNs, low-/high-pass filters, and self-attention layers. The encoder maps reference videos into a compact set of memory tokens, which are concatenated as the memory within the DiT self-attention layers. During training, we keep the diffusion backbone frozen, and only optimize the memory encoder. It yields a rather efficient training process on few training parameters (e.g. 150M) and 10K data samples, and enables plug-and-play usage at inference time. Extensive experiments on state-of-the-art models demonstrate the effectiveness of our method in improving physical rule following and video fidelity. Our code and data are publicly released here https://thrcle421. github.io/DiT-Mem-Web/.

💡 Analysis

본 논문은 최근 비디오 생성 분야에서 주목받고 있는 디퓨전 트랜스포머(DiT) 모델이 물리적 일관성이나 상식적인 동작을 제대로 반영하지 못한다는 근본적인 한계를 짚어낸다. 이는 이미지·텍스트 분야에서 대규모 언어 모델이 인‑컨텍스트 학습을 통해 외부 지식을 효율적으로 활용하는 방식과는 대조적이다. 저자들은 먼저 DiT의 내부 표현을 직접 조작함으로써 모델의 출력에 영향을 미칠 수 있음을 실험적으로 증명한다. 특히, 임베딩 공간에서 저역(appearance)과 고역(physics/semantics) 필터를 적용하면 두 종류의 정보가 명확히 분리된다는 점을 발견했는데, 이는 비디오 생성 과정에서 ‘무엇을 보여줄지’와 ‘어떻게 움직일지’를 독립적으로 제어할 수 있는 강력한 단서를 제공한다.

이러한 통찰을 바탕으로 제안된 DiT‑Mem은 3D CNN 기반의 메모리 인코더와 저·고역 필터, 그리고 자체 어텐션 레이어를 결합한 구조이다. 핵심 아이디어는 외부에서 제공되는 ‘참조 비디오’를 압축된 메모리 토큰으로 변환하고, 이를 DiT의 어텐션 연산에 삽입해 모델이 추가적인 세계 지식을 직접 활용하도록 하는 것이다. 흥미로운 점은 학습 단계에서 기존 DiT 백본을 완전히 고정하고 메모리 인코더만을 학습한다는 점이다. 이는 파라미터 효율성을 크게 높이며, 적은 데이터(10 K 샘플)와 비교적 작은 파라미터 규모(≈150 M)만으로도 충분히 효과적인 메모리를 학습할 수 있음을 보여준다. 실험 결과는 물리 법칙 위반 사례가 현저히 감소하고, 전반적인 비디오 품질(FID, IS 등)에서도 개선이 이루어졌음을 입증한다.

강점으로는 (1) 플러그‑인 형태라 기존 DiT 모델을 그대로 재사용할 수 있어 적용 비용이 낮다, (2) 메모리 인코더가 비교적 가벼워 빠른 학습이 가능하고, (3) 저·고역 필터를 통한 정보 분리가 직관적인 제어 메커니즘을 제공한다는 점을 들 수 있다. 반면 한계점도 존재한다. 첫째, 메모리 토큰이 얼마나 일반화될 수 있는지, 즉 새로운 도메인이나 복잡한 물리 현상에 대해 얼마나 효과적인지는 아직 검증되지 않았다. 둘째, 메모리 인코더가 3D CNN에 의존하기 때문에 고해상도 장면이나 장시간 시퀀스에서는 연산 비용이 급증할 가능성이 있다. 셋째, 현재는 메모리와 백본을 별도로 학습하지만, 장기적으로는 메모리와 백본을 공동 최적화해 더 깊은 상호작용을 이끌어낼 여지가 있다.

향후 연구 방향으로는 (1) 다양한 물리 시뮬레이션 데이터와 결합해 메모리의 물리 지식 범위를 확장, (2) 메모리 토큰을 동적으로 업데이트하는 온라인 학습 메커니즘 도입, (3) 멀티모달(텍스트·오디오·센서 데이터) 메모리를 통합해 보다 풍부한 세계 지식을 제공하는 방안 등을 제시할 수 있다. 전반적으로 DiT‑Mem은 디퓨전 기반 비디오 생성 모델에 세계 지식을 효율적으로 주입하는 실용적인 프레임워크로, 향후 생성 AI가 물리적 일관성을 갖춘 현실감 있는 콘텐츠를 생산하는 데 중요한 발판이 될 것으로 기대된다.

📄 Content

디퓨전 트랜스포머(DiT) 기반 비디오 생성 모델은 최근 인상적인 시각적 품질과 시간적 일관성을 달성했지만, 여전히 기본적인 물리 법칙과 상식적인 동역학을 위반하는 경우가 빈번히 발생한다. 이는 모델에 명시적인 세계 지식이 부족함을 나타낸다. 본 연구에서는 이러한 모델에 플러그‑인 형태의 메모리를 도입해 유용한 세계 지식을 주입하는 방법을 탐구한다. 대형 언어 모델(Large Language Model)에서의 인‑컨텍스트 메모리 개념에 영감을 받아, DiT가 은닉 상태에 대한 개입을 통해 조정될 수 있음을 실험적으로 확인하였다. 또한 임베딩 공간에서의 저역 및 고역 필터가 저수준 외관 정보와 고수준 물리·의미 단서를 자연스럽게 분리한다는 사실을 발견했으며, 이를 통해 목표 지시가 가능함을 보였다.

이러한 관찰을 바탕으로, 저자는 3D CNN, 저·고역 필터, 자체 어텐션 레이어로 구성된 학습 가능한 메모리 인코더인 DiT‑Mem을 제안한다. 인코더는 참조 비디오를 압축된 메모리 토큰 집합으로 변환하고, 이 토큰들을 DiT의 자체 어텐션 레이어에 메모리로서 연결한다. 학습 과정에서는 확산 백본을 고정하고 메모리 인코더만을 최적화한다. 이 방식은 파라미터가 약 150 M에 불과하고 10 K개의 데이터 샘플만으로도 효율적인 학습이 가능하며, 추론 시 플러그‑인 형태로 손쉽게 사용할 수 있다. 최신 모델들을 대상으로 한 광범위한 실험에서 물리 규칙 준수와 비디오 충실도 향상에 대한 본 방법의 효과를 입증하였다. 코드와 데이터는 공개 저장소(https://thrcle421.github.io/DiT-Mem-Web/ )에서 제공한다.

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키