역방향 집계로 비디오 AI의 '표류 현상' 잡는다

역방향 집계로 비디오 AI의 '표류 현상' 잡는다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

자기회귀 비디오 생성 AI는 다음 프레임을 예측하며 동영상을 만들어내지만, 학습 때는 깨끗한 프레임을, 실제 생성 때는 자신이 만든 오류가 담긴 프레임을 보게 되어 오류가 누적되고 품질이 떨어지는 ‘노출 편향’ 문제가 있습니다. 이 연구에서는 모델이 자신의 생성 결과를 거꾸로 돌려 ‘실수에서 복구하는 방법’을 스스로 학습하는 ‘BAgger’ 기법을 제안합니다. 기존의 복잡한 교사 모델이나 분포 정합 손실을 사용하지 않고 표준 확산 목표만으로 학습해 장기간 안정적이고 일관된 비디오 생성을 가능하게 합니다.

상세 분석

이 논문이 해결하는 핵심 문제는 자기회귀 비디오 생성 모델의 ‘노출 편향(Exposure Bias)’ 또는 ‘표류(Drift)’ 현상이다. 학습 시에는 항상 실제 데이터(ground truth)의 깨끗한 이전 프레임을 조건으로 다음 프레임을 예측하지만, 추론 시에는 모델 자신이 방금 생성한 (오류가 있을 수 있는) 프레임을 조건으로 다음 프레임을 생성해야 한다. 이 차이로 인해 작은 오류가 시간이 지남에 따라 누적되어 화질 저하, 콘텐츠 붕괴, 운동의 비현실적 변화 등으로 이어진다.

기존 해결책은 주로 두 가지 접근법에 의존했다. 첫째, Diffusion Forcing처럼 학습 시 조건 프레임에 노이즈를 주입해 모델을 강건하게 만드는 방법이지만, 이는 근본적인 훈련-추론 분포 불일치를 해결하지 못한다. 둘째, Self-Forcing처럼 사전 학습된 양방향(bidirectional) 교사 모델을 통해 모델 자신의 롤아웃(생성 결과) 분포를 정답 분포에 맞추는 ‘분포 정합(Distribution Matching)’ 손실을 사용하는 방법이다. 그러나 이 방법은 대규모 교사 모델에 의존해야 하고, 분포 정합 손실(예: Score Distillation)이 모드 붕괴(Mode Collapse)를 유발해 다양성을 떨어뜨릴 수 있으며, 전체 생성 체인을 통한 역전파(BPTT)로 계산 비용이 크다는 한계가 있다.

BAgger의 혁신성은 ‘데이터셋 집계(Dataset Aggregation, DAgger)’ 알고리즘에서 영감을 얻어, 외부 교사 모델 없이 모델 스스로 ‘교정 신호’를 생성한다는 점에 있다. 핵심 아이디어는 간단하면서도 강력하다: 모델이 생성한 표류된 동영상(고품질 시작 → 저품질 종료)을 시간적으로 뒤집으면, 저품질 상태에서 고품질 상태로 ‘복구하는’ 교정 궤적(Corrective Trajectory)이 자연스럽게 만들어진다. 예를 들어, “양이 강을 마시는” 동영상을 생성하다가 품질이 떨어진 결과를 얻었다면, 이 동영상을 거꾸로 재생한 “뒤로 감기는 강을 마시는 양"은 (프롬프트를 수정하면) 유효한 훈련 데이터가 된다. 모델은 이를 통해 “내가 만든 나쁜 프레임들이 주어졌을 때, 어떻게 좋은 이전 프레임으로 돌아갈 수 있는가"를 학습하게 된다.

이 과정은 순환적으로 이루어진다. 1) 현재 데이터셋으로 Diffusion Forcing 방식의 모델을 훈련시킨다. 2) 이 모델로 시작 프레임부터 롤아웃(동영상 생성)을 수행한다. 3) 생성된 동영상을 뒤집어 교정 궤적 샘플을 만든다. 4) 이 샘플을 기존 데이터셋에 추가(Aggregate)한다. 5) 확장된 데이터셋으로 모델을 다시 훈련시킨다. 이를 반복하면 모델은 점점 더 자신의 오류에 강건해지고, 추론 시 표류 현상을 스스로 수정하는 능력을 갖추게 된다.

BAgger의 가장 큰 장점은 표준 확산 손실(Score Matching 또는 Flow Matching)만을 사용한다는 것이다. 이는 모델의 본래 학습 목표를 그대로 유지하면서도, 훈련 데이터의 분포를 점진적으로 추론 시 분포(모델 자신의 생성 결과)에 가깝게 밀어낸다. 복잡한 분포 정합 손실이나 대규모 교사 모델, 긴 체인 BPTT가 필요 없어 계산 효율성과 구현 간편성에서 우위를 가진다. 실험 결과, 텍스트-투-비디오, 비디오 확장, 다중 프롬프트 생성 등 다양한 태스크에서 BAgger가 적용된 모델은 기존 방법 대비 장기간에 걸쳐 시각적 일관성과 운동 안정성을 유지하며 표류 현상이 현저히 줄어든 것을 확인할 수 있었다.


댓글 및 학술 토론

Loading comments...

의견 남기기