DreamID Omni 인간 중심 오디오 비디오 생성 통합 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DreamID‑Omni는 참고 이미지·음성, 소스 비디오·구동 음성 등 다양한 조건을 하나의 대칭 조건부 확산 트랜스포머에 통합해, 레퍼런스 기반 생성(R2AV), 비디오 편집(RV2AV), 음성 구동 애니메이션(RA2V) 세 작업을 하나의 모델로 수행한다. 신호‑레벨의 동기화 RoPE와 의미‑레벨의 구조화 캡션을 결합한 이중 수준 분리 전략으로 다인물 상황에서도 정체성·음색이 정확히 매핑되며, 약·강 제약 작업을 단계적으로 학습하는 다중 과제 진행 학습으로 과적합을 방지한다. 실험 결과 상용 모델을 넘어서는 영상·음향·시청각 일관성 성능을 기록한다.

상세 분석

DreamID‑Omni는 인간 중심 멀티모달 생성 문제를 “정체성 앵커(이미지·음성) → 동적 시공간 캔버스(텍스트·소스 비디오·구동 음성)”라는 단일 확률 모델로 재정의한다. 이를 구현하기 위해 두 개의 스트림(비디오와 오디오)으로 구성된 Dual‑Stream Diffusion Transformer(DiT)를 기반으로, 양쪽 스트림이 상호 교차‑어텐션을 통해 미세한 시간 동기화를 수행한다. 핵심 설계인 대칭 조건부 DiT는 조건 시퀀스를 비디오와 오디오 각각에 대칭적으로 삽입한다. 레퍼런스 이미지와 음성 특징은 시퀀스에 연결(concatenation) 형태로 삽입되고, 소스 비디오·구동 음성은 요소‑단위 덧셈으로 구조적 캔버스를 제공한다. 이 설계는 동일한 파라미터 집합으로 R2AV, RV2AV, RA2V를 자유롭게 전환할 수 있게 한다.

다인물 상황에서 발생하는 정체성‑음색 결합 오류와 속성‑내용 혼동을 해결하기 위해 두 단계의 분리 메커니즘을 도입한다.

신호‑레벨 동기화 RoPE(Syn‑RoPE): 기존 RoPE를 시간 축에 맞춰 스케일링하고, 각 레퍼런스 정체성마다 고정된 “RoPE 마진” 구간을 할당한다. 이렇게 하면 동일 정체성의 비주얼·오디오 특징이 동일 회전 서브스페이스에 매핑돼 교차 어텐션 점수가 자연스럽게 억제되고, 서로 다른 정체성 간의 혼합이 방지된다. 또한 비디오·오디오 시퀀스가 동일 마진에 배치되므로 신호 수준에서 자동 동기화가 이루어진다.
의미‑레벨 구조화 캡션: 각 정체성에 고유 토큰〈sub k〉을 부여하고, 세밀한 속성·동작·대화 내용을 토큰 뒤에 명시한다. 대형 멀티모달 언어 모델(MLLM)로부터 자동 생성된 구조화 캡션은 텍스트‑조건 어텐션에 명확한 매핑을 제공해, “누가 무엇을 말하고, 어떤 옷을 입었는가”와 같은 세부 정보를 정확히 전달한다.

학습 측면에서는 **다중 과제 진행 학습(Multi‑Task Progressive Training)**을 채택한다. 초기 두 단계에서는 약한 제약을 가진 R2AV만을 사용해 인코더가 레퍼런스 정체성 및 음색을 강건하게 학습하도록 한다. 이때 인‑페어 재구성과 크로스‑페어 분리 손실을 적용해 정체성‑음색 일관성을 강화한다. 이후 단계에서는 강한 제약을 가진 RV2AV와 RA2V를 추가해 공동 학습함으로써, 약한 과제에서 얻은 일반화 능력을 유지하면서도 편집·애니메이션 특화 능력을 습득한다. 이러한 단계적 접근은 과도한 파라미터 업데이트를 방지하고, 서로 다른 과제 간 목표 충돌을 최소화한다.

실험에서는 공개 데이터셋과 자체 수집한 다인물 시나리오에서 영상 품질(FVD, IS), 음성 품질(MOS, PESQ), 그리고 시청각 일관성(AV‑Sync) 지표를 종합적으로 평가했다. DreamID‑Omni는 기존 최첨단 모델 및 상용 서비스(Veo3, Sora2 등)를 모두 앞서는 성능을 보였으며, 특히 다인물 동시 생성 시 정체성‑음색 매핑 정확도가 크게 향상되었다. 코드와 모델을 공개함으로써 학계와 산업 간 격차를 줄이고, 실제 제품 적용 가능성을 높였다.

DreamID Omni 인간 중심 오디오 비디오 생성 통합 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기