꿈을 영상으로 지속 가능한 텍스트투비디오 맞춤화

꿈을 영상으로 지속 가능한 텍스트투비디오 맞춤화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사용자가 시간에 따라 추가하는 개인화된 객체와 동작을 지속적으로 학습할 수 있는 텍스트‑투‑비디오 생성 프레임워크인 CCVD를 제안한다. 기존 방법이 정적인 개념에만 초점을 맞추어 발생하는 재앙적 망각과 개념 무시 문제를 해결하기 위해, 개념‑특정 속성 보존 모듈과 작업‑인식 개념 집합 전략, 그리고 레이어‑별 영역 주의와 주의‑가이드 노이즈 추정으로 구성된 조건부 합성 모듈을 설계하였다. DreamVideo와 Wan 2.1 백본에서 광범위한 실험을 수행해 제안 방법이 기존 베이스라인을 크게 능가함을 입증하였다.

상세 분석

CTVC(Continual Text‑to‑Video Customization)라는 새로운 문제 설정을 정의하고, 두 가지 핵심 난제인 재앙적 망각(catastrophic forgetting)과 개념 무시(concept neglect)를 명시한다. 재앙적 망각은 새로운 개념을 학습하면서 기존 어댑터 파라미터가 변형돼 이전에 학습한 객체·동작의 고유 특성이 사라지는 현상이며, 개념 무시는 다중 개념 영상 생성 시 사용자가 지정한 조건(예: 바운딩 박스)과 일치하지 않는 기존 개념이 무시되는 현상이다. 이를 해결하기 위해 CCVD는 세 가지 주요 모듈을 도입한다. 첫째, Concept‑Specific Attribute Retention(CAR) 모듈은 각 레이어마다 개념 토큰을 삽입하고, 개념 간 직교 손실(concept orthogonal loss)을 적용해 새로운 작업을 학습하면서도 이전 개념의 고유 속성을 보존한다. 레이어‑별 토큰은 텍스트 프롬프트에 레이어 인덱스를 부여해 각 레이어가 독립적인 의미 표현을 학습하도록 유도한다. 둘째, Task‑Aware Concept Aggregation(TCR) 전략은 테스트 시 모든 이전 어댑터(주제·동작 어댑터)를 해당 작업과의 연관도에 따라 가중합함으로써, 개념 간 상호작용을 동적으로 조정한다. 이는 단순히 어댑터를 그대로 연결하는 방식보다 개별 개념의 정체성을 유지하면서도 새로운 개념과의 조화를 가능하게 한다. 셋째, Controllable Conditional Synthesis 모듈은 레이어‑별 영역 주의(layer‑specific region attention)를 통해 지역 특징을 강화하고, 주의‑가이드 노이즈 추정(attention‑guided noise estimation)으로 사용자가 제공한 조건에 맞는 노이즈 스케줄을 제어한다. 결과적으로 생성된 비디오의 공간‑시간 컨텍스트가 사용자 지정 조건과 정밀하게 정렬된다. 실험에서는 DreamVideo와 Wan 2.1 두 백본에 CCVD를 적용해, 단일·다중 개념 맞춤화, 스타일 전이, 비디오 편집 등 다양한 태스크에서 정량·정성 지표 모두 기존 최첨단 방법을 앞섰다. 특히, 어댑터 수가 증가해도 망각률이 30% 이하로 유지되는 등 지속 학습 능력이 입증되었다.


댓글 및 학술 토론

Loading comments...

의견 남기기