블록 기반 자동회귀와 확산을 연결한 ACDiT
초록
ACDiT는 시각 데이터를 연속적인 블록 단위로 나누어, 이전 블록을 조건으로 하는 조건부 확산 과정을 통해 각 블록을 동시에 복원하고, 자동회귀적으로 순차적으로 블록을 생성하는 새로운 프레임워크이다. Skip‑Causal Attention Mask와 KV‑Cache를 활용해 구현이 간단하면서도 이미지·비디오·텍스트 생성에서 기존 자동회귀 모델을 능가하고, 생성‑이해 전이까지 가능하게 한다.
상세 분석
본 논문은 자동회귀(AR)와 확산(Diffusion) 모델의 장점을 융합한 ACDiT(Auto‑regressive Conditional Diffusion Transformer)를 제안한다. 핵심 아이디어는 시각 데이터를 고정된 토큰이 아니라 연속적인 “블록”(patch 혹은 프레임 묶음)으로 정의하고, 각 블록을 조건부 확산 과정으로 복원한다는 점이다. 이때 이전에 완전히 복원된 블록들을 “클린 컨텍스트”로 사용해 현재 블록을 denoise 하며, denoise가 끝난 뒤 해당 블록을 새로운 컨텍스트에 추가한다. 이렇게 하면 블록 내부에서는 확산의 비인과적(no‑causal) 특성을 유지해 풍부한 지역 정보를 학습하고, 블록 간에는 자동회귀적(causal) 흐름을 보장한다.
구현 측면에서는 기존 Diffusion Transformer(DiT) 구조에 Skip‑Causal Attention Mask만 추가한다. 마스크는 현재 노이즈 블록이 이전 클린 블록과 자기 자신만을 attend하도록 제한하면서, 과거 블록은 서로 완전하게 상호작용하게 만든다. 이 설계는 학습 시 별도의 복잡한 파이프라인 없이 단일 모델로 학습을 가능하게 하며, 추론 시 KV‑Cache를 그대로 활용해 블록 단위의 빠른 토큰 생성이 가능하도록 한다.
학습 목표는 전통적인 확산 손실을 블록‑조건부 형태로 변형한 식(3)이다. 즉, 각 시점 t와 블록 i에 대해 εθ가 현재 노이즈와 시간 스텝을 예측하도록 하면서, 이전 블록들의 클린 표현을 명시적으로 조건에 포함한다. 이는 AR 모델이 요구하는 “정확한 과거 표현”과 확산 모델이 요구하는 “전체 시퀀스에 대한 전역 접근”을 동시에 만족한다.
실험에서는 이미지, 비디오, 텍스트 3가지 도메인에서 기존 AR 기반 Transformer와 전통적인 확산 모델을 비교한다. 동일한 파라미터 규모에서 ACDiT은 이미지·비디오에서는 FID·IS 등 품질 지표에서 AR 베이스를 크게 앞서며, 확산 모델에 근접한 샘플 품질을 유지한다. 특히 긴 시퀀스(고해상도 이미지, 장시간 비디오)에서는 블록 단위 denoising이 전체 시퀀스를 한 번에 처리하는 확산보다 연산 효율이 높고, KV‑Cache 덕분에 추론 속도가 크게 개선된다. 텍스트 실험에서도 기존 디스크리트 확산 기반 언어 모델을 능가하는 퍼플렉시티와 BLEU 점수를 기록한다.
또한, ACDiT은 순수 생성 목표로 학습했음에도 불구하고, 이미지 분류·객체 검출 등 시각 이해 태스크에 파인튜닝 없이 바로 전이할 수 있음을 보였다. 이는 연속적인 클린 컨텍스트를 학습함으로써, 디스크리트 토큰화가 야기하는 정보 손실을 최소화한 결과이다.
논문은 세 가지 설계 desiderata를 제시하고, 기존 자동회귀‑확산 혼합 방식(예: Diffusion‑Forcing, MAR, Transfusion 등)이 각각 과거 표현의 불명확성, 파라미터 활용 비효율, 전체 시퀀스 접근 제한 등의 문제를 갖는 반면, ACDiT은 이를 모두 충족한다는 점을 강조한다. 마지막으로 블록 크기와 확산 스텝 수 사이의 트레이드‑오프를 분석해, 긴 시계열(예: 30초 이상 비디오)에서는 블록을 크게 잡고 확산 스텝을 적게 하는 것이 효율적이며, 고해상도 이미지에서는 작은 블록과 많은 스텝이 품질을 높인다는 실험적 가이드를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기