JavisDiT: 계층형 시공간 사전 동기화 기반 통합 오디오‑비디오 생성 트랜스포머

JavisDiT: 계층형 시공간 사전 동기화 기반 통합 오디오‑비디오 생성 트랜스포머
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

JavisDiT는 Diffusion Transformer(DiT)를 기반으로 텍스트 프롬프트 하나만으로 고품질의 영상과 오디오를 동시에 생성한다. 계층형 공간‑시간 동기화 사전(HiST‑Sypo) 추출기를 통해 전역·세부 시공간 정보를 제공하고, 이를 영상·오디오 디퓨전 블록에 주입해 공간·시간 양측면에서 정확한 동기화를 달성한다. 새롭게 구축한 JavisBench(10,140개)와 JavisScore 메트릭을 이용한 실험에서 기존 방법들을 크게 앞선 성능을 보였다.

상세 분석

JavisDiT는 기존 JAVG 연구가 직면한 두 가지 핵심 과제—(1) 영상·오디오 각각의 고품질 생성, (2) 두 모달리티 간의 미세한 시공간 정렬—를 동시에 해결하고자 설계된 모델이다. 핵심 설계는 크게 세 부분으로 나뉜다. 첫째, DiT 기반의 양쪽(영상, 오디오) 토큰 스트림을 공유하는 AV‑DiT 블록을 도입해 이미지‑디퓨전에서 검증된 고성능 토큰 처리 능력을 그대로 활용한다. 여기서는 스페이셜‑템포럴 Self‑Attention(ST‑SelfAttn)으로 각 모달리티 내부의 시공간 상관관계를 효율적으로 캡처하고, Coarse‑Grained Cross‑Attention을 통해 텍스트(T5) 임베딩을 전역 의미 사전으로 주입한다.

둘째, 가장 혁신적인 요소인 Hierarchical Spatial‑Temporal Synchronized Prior(HiST‑Sypo) Estimator가 있다. 이 모듈은 입력 텍스트를 기반으로 두 단계의 사전을 생성한다. (a) 전역 의미 사전은 기존 T5 임베딩을 그대로 활용해 “무엇이 일어나는가”를 제공한다. (b) 미세 시공간 사전은 4‑layer Transformer Encoder‑Decoder와 ImageBind 텍스트 인코더의 77개 hidden state를 이용해 32개의 공간 토큰(p_s)과 32개의 시간 토큰(p_t)을 추출한다. 토큰은 가우시안 평균·분산을 예측하고, 샘플링을 통해 다양한 가능한 위치·시점을 모델링한다. 이렇게 얻어진 (p_s, p_t)는 각각 ST‑CrossAttn과 MM‑BiCrossAttn에 주입돼 영상·오디오 토큰 간의 정교한 교차‑어텐션을 수행한다. 특히, ST‑CrossAttn은 공간 토큰을 영상·오디오의 공간 차원(H×W, M)과, 시간 토큰을 각각의 시간 차원(T_v, T_a)에 매핑해, “어디서”와 “언제” 사운드가 발생해야 하는지를 명시적으로 제어한다.

셋째, 학습 단계에서 Contrastive Learning 기반의 사전 추정 전략을 채택한다. 동일 텍스트에 대해 서로 다른 시공간 사전 샘플을 생성하고, 이들 사이의 거리와 원본 텍스트 임베딩 간의 일관성을 최대화하도록 손실을 설계한다. 이는 사전 추정기의 일반화 능력을 크게 향상시켜, 복잡하고 다중 이벤트가 섞인 실제 동영상에서도 안정적인 동기화를 가능하게 한다.

평가 측면에서는 기존 Landscape, AIST++와 달리 5가지 차원·19개 장면 카테고리를 포괄하는 JavisBench을 구축했다. 데이터는 수작업 검수 과정을 거쳐 50% 이상이 복합 사건(여러 사운드·시각 요소 동시 발생)으로 구성돼, 실제 서비스 환경에 가까운 난이도를 제공한다. 동기화 품질을 정량화하기 위해 제안된 JavisScore는 시간‑인식 의미 정렬 메커니즘을 사용해, 오디오와 비디오의 이벤트 시작·종료 시점을 의미론적 매칭 점수와 결합한다. 실험 결과, JavisDiT는 PSNR/SSIM, FAD, 그리고 JavisScore 모두에서 기존 최첨단 모델(AV‑DiT, MM‑LDM, SyncFlow 등)을 크게 앞섰으며, 특히 복합 장면에서 12%~18% 수준의 동기화 향상을 기록했다.

전반적으로 JavisDiT는 (1) DiT 기반의 강력한 토큰 처리, (2) 계층형 시공간 사전 추출·주입, (3) 양방향 교차 어텐션, (4) 대규모 현실 데이터와 새로운 평가 지표라는 네 축을 통해 JAVG 분야의 성능 한계를 재정의한다. 향후 연구는 사전 추정기의 멀티모달 대규모 사전학습, 실시간 스트리밍 생성, 그리고 텍스트‑투‑사운드‑투‑비디오 순환 구조 확장 등으로 이어질 가능성이 높다.


댓글 및 학술 토론

Loading comments...

의견 남기기