다목적 인터리브 멀티모달 생성 DuoGen
초록
DuoGen은 사전 학습된 멀티모달 LLM과 비디오‑전용 Diffusion Transformer(DiT)를 결합해 텍스트와 이미지를 교차로 생성·편집하는 일반‑목적 인터리브 멀티모달 프레임워크를 제안한다. 고품질 웹‑기반 대화와 합성 데이터를 298k 규모로 구축하고, MLLM을 먼저 instruction‑tune한 뒤 DiT를 정렬하는 두 단계 학습 전략을 적용한다. 공개·신규 벤치마크에서 텍스트 품질, 이미지 충실도, 텍스트‑이미지 정렬 모두 기존 오픈소스 모델을 크게 앞선다.
상세 분석
DuoGen은 인터리브 멀티모달 생성이라는 아직 충분히 탐구되지 않은 영역을 체계적으로 접근한다. 첫 번째 핵심은 데이터이다. 저자들은 347 k개의 원시 웹 페이지를 수집하고, LLM·MLLM 파이프라인을 이용해 텍스트를 정제·재작성하고, 이미지에 자동 캡션·분류를 부여한 뒤, 중복·불필요 이미지를 제거한다. 이렇게 정제된 268 k 웹‑대화는 사용자‑어시스턴트 형태의 멀티턴 대화로 변환된다. 웹 데이터는 현실성·다양성을 제공하지만 해상도·미학이 제한적이므로, 30 k개의 고품질 합성 샘플을 추가한다. 여기서는 8개 도메인(가정·생활, 교통 등)에서 1 500개의 시드 프롬프트를 정의하고, OpenAI O3를 활용해 15 270개의 변형 명령을 생성한 뒤, 최신 이미지 생성 모델로 시각적 출력을 만든다. 결과적으로 298 k개의 고품질 인터리브 instruction‑tuning 데이터와 5 M개의 영상‑프레임 기반 이미지‑텍스트 정렬 데이터가 확보된다.
두 번째 핵심은 아키텍처 설계이다. DuoGen은 사전 학습된 멀티모달 LLM(예: LLaVA‑style)과 비디오 생성에 특화된 Diffusion Transformer(DiT)를 그대로 활용한다. LLM은
학습은 두 단계로 진행된다. 1단계에서는 MLLM만을 고정된 파라미터로 두고, 인터리브 대화 데이터를 이용해 next‑token 예측을 수행한다. 이 과정에서
평가에서는 기존 CoMM, InterleavedBench 외에 저자들이 새로 만든 일상 문제 중심 벤치마크를 포함한다. 평가 지표는 텍스트 품질(ROUGE, BLEU), 이미지 충실도(FID, IS), 텍스트‑이미지 정렬(Recall@K) 등을 종합한다. 모든 벤치마크에서 DuoGen은 최신 오픈소스 통합 모델(NanoBanana, Zebra‑CoT 등)보다 평균 12 %~25 % 높은 점수를 기록한다. 특히 텍스트‑투‑이미지와 이미지 편집 태스크에서는 Bagel, OmniGen2를 능가하는 FID 감소와 편집 정확도를 보였다.
전반적으로 DuoGen은 (1) 대규모·고품질 인터리브 데이터 파이프라인, (2) 사전 학습된 멀티모달 LLM과 비디오‑전용 DiT의 효율적 결합, (3) 두 단계의 디커플드 학습 전략이라는 세 축을 통해 인터리브 멀티모달 생성의 성능 한계를 크게 확장한다는 점에서 의미가 크다. 향후 연구는 더 큰 규모의 DiT·LLM 조합, 실시간 인터랙션, 그리고 사용자 피드백 기반 강화학습 등으로 확장될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기