다중 비디오 이미지 생성 및 편집을 하나의 모델로 통합하는 Many for Many 프레임워크

다중 비디오 이미지 생성 및 편집을 하나의 모델로 통합하는 Many for Many 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Many‑for‑Many(MfM) 프레임워크는 텍스트‑투‑비디오, 이미지‑투‑비디오, 비디오‑투‑비디오 등 10여 개 이상의 시각 생성·조작 작업을 하나의 확산 트랜스포머 모델에 통합한다. 경량 어댑터로 서로 다른 조건을 표준화하고, 이미지와 비디오 데이터를 공동 학습함으로써 기존 T2V 전용 모델보다 적은 데이터로도 높은 품질의 비디오를 생성한다. 깊이 맵을 추가 조건으로 활용해 3D 공간 인식을 강화했으며, 2 B와 8 B 두 규모의 모델을 공개한다.

상세 분석

본 논문은 비디오 생성·조작 분야에서 ‘하나의 모델이 여러 작업을 수행한다’는 목표를 실현하기 위해 세 가지 핵심 설계를 제시한다. 첫째, 0D·1D·2D·3D 조건을 모두 포괄하는 경량 어댑터를 도입해 텍스트, 이미지, 마스크, 깊이 맵 등 다양한 입력을 동일한 차원으로 변환한다. 어댑터는 다중 컨볼루션과 다운샘플링 블록으로 구성돼 비디오 VAE의 압축 비율(8×8 공간, 4×시간)과 일치하도록 조정된다. 둘째, 모델 본체는 3D Full‑Attention을 갖춘 Diffusion Transformer(DiT)를 사용한다. 3D RoPE를 적용해 시간·공간 위치 정보를 동시에 인코딩하고, Q‑K 정규화와 RMSNorm을 통해 대규모 트랜스포머 학습 시 발생할 수 있는 수치 불안정을 완화한다. 셋째, Flow Matching 기반의 학습 방식을 채택해 기존 DDPM 대비 샘플링 효율을 높이며, 이미지‑비디오 공동 학습 전략을 통해 이미지 데이터(텍스트‑이미지 쌍)를 초기 학습 단계에 활용한다. 이미지‑비디오 비율을 점진적으로 감소시켜 비디오 생성 능력을 강화하면서도, 이미지‑기반 작업(T2I, SISR)까지 자연스럽게 포괄한다. 또한, 작업 이름을 텍스트 프롬프트에 삽입해 동일한 마스크 입력을 공유하는 작업들(예: VSR vs. 비디오 색칠) 간의 혼동을 방지한다. 실험 결과, 8 B 모델은 기존 공개 T2V 파운데이션 모델(예: CogVideoX, MovieGen) 대비 약 10 %의 학습 데이터만 사용했음에도 불구하고 정성·정량 평가에서 경쟁력을 보였으며, 2 B 모델도 경량 환경에서 다중 작업을 안정적으로 수행한다. 이러한 설계는 비디오 생성에 필요한 대규모 고품질 주석 데이터를 크게 절감하면서도, 다양한 조건부 생성·편집 시나리오를 하나의 통합 모델로 처리할 수 있게 한다.


댓글 및 학술 토론

Loading comments...

의견 남기기