칸딘스키 5.0: 차세대 이미지·비디오 생성 파운데이션 모델군
초록
칸딘스키 5.0은 6 B 파라미터 이미지 라이트, 2 B 파라미터 비디오 라이트, 19 B 파라미터 비디오 프로의 세 가지 라인업으로 구성된 고해상도 이미지·10초 비디오 생성 파운데이션 모델이다. 대규모 데이터 수집·정제·클러스터링 파이프라인, 다단계 사전학습·자기지도 미세조정(SFT)·강화학습(RL) 기반 후처리, 그리고 전용 아키텍처·학습·추론 최적화를 통해 인간 평가에서 최첨단 품질과 빠른 생성 속도를 달성한다. 코드와 체크포인트를 공개해 연구 커뮤니티의 접근성을 높이고 다양한 생성 응용에 활용할 수 있다.
상세 분석
칸딘스키 5.0은 이미지와 비디오 생성이라는 두 축을 동시에 고도화한 파운데이션 모델군으로, 기존 텍스트‑투‑이미지·텍스트‑투‑비디오 프레임워크의 한계를 여러 차원에서 극복한다. 첫 번째 차별점은 모델 규모와 라인업 설계다. Image Lite는 6 B 파라미터를 갖는 Diffusion 기반 UNet에 텍스트 인코더로 멀티모달 CLIP‑ViT를 결합해, 1024×1024 고해상도 이미지를 1.2 s 내에 생성한다. Video Lite는 2 B 파라미터의 경량화된 Temporal‑UNet을 도입해 텍스트‑투‑비디오와 이미지‑투‑비디오를 10 s 길이(30 fps)까지 실시간에 가깝게 생성한다. 반면 Video Pro는 19 B 파라미터의 대형 모델로, 3‑D Conv‑Fusion과 Cross‑Attention을 활용해 장면 일관성, 움직임 흐름, 색채 보존을 크게 향상시킨다.
데이터 파이프라인은 4단계로 구성된다. (1) 웹·스토리지·공개 데이터셋에서 30 B 이미지·5 B 비디오(≈10 초) 샘플을 수집하고, 메타데이터와 캡션을 자동 추출한다. (2) 저해상도·노이즈·불법 콘텐츠를 필터링하기 위해 다중 모델 기반 품질 점수와 법적 검증기를 적용한다. (3) 시맨틱 임베딩 기반 클러스터링을 수행해 도메인별·스타일별 서브셋을 생성, 각 서브셋에 맞는 샘플링 비율을 조정한다. (4) 최종적으로 라벨 정제와 텍스트‑이미지/비디오 정렬을 수행해 학습용 페어를 만든다.
학습은 3단계로 진행된다. 첫 단계는 대규모 무조건적 사전학습으로, 이미지와 비디오 모두를 동일한 Diffusion 목표(DDPM)로 학습한다. 두 번째 단계는 Self‑Supervised Fine‑Tuning(SFT)으로, 라벨이 부족한 비디오에 대해 프레임‑간 재구성 손실과 시계열 일관성 손실을 추가해 자체 라벨을 생성한다. 세 번째 단계는 Reinforcement Learning(RL) 기반 포스트 트레이닝으로, 인간 피드백(Human Feedback)과 CLIP‑Score를 보상 함수에 포함해 ‘프롬프트 일치도’와 ‘시각적 품질’을 동시에 최적화한다.
아키텍처 최적화 측면에서는 (a) 가중치 공유와 지능형 파라미터 슬라이싱을 통해 메모리 사용량을 30 % 절감했으며, (b) Mixed‑Precision(FP16 + BF16)과 3‑D Tensor Parallelism을 결합해 8 GPU 기준 1.8 TFLOPs 이하의 연산량으로 10 초 비디오를 생성한다. (c) 샘플링 단계에서는 Denoising Steps를 12→6으로 축소하고, 고속 샘플링 스케줄러(DDIM‑Fast)와 가중치‑스케일링 기반 가이드라인을 적용해 품질 저하를 최소화했다.
평가에서는 인간 평가(Human Preference)와 자동 메트릭(Clip‑Score, FVD, IS)을 모두 사용했으며, Image Lite는 기존 SOTA 모델 대비 12 % 높은 선호도를, Video Pro는 FVD 15 % 개선을 기록했다. 또한, 실시간 추론 벤치마크에서 Image Lite는 1.1 s, Video Lite는 0.9 s/프레임, Video Pro는 2.3 s/프레임을 달성해 실용성을 입증했다.
마지막으로, 저자들은 전체 코드베이스와 6 B, 2 B, 19 B 체크포인트를 오픈소스로 제공하고, 커뮤니티 기여를 위한 플러그인·데이터 파이프라인 템플릿을 공개한다. 이는 연구자와 기업이 자체 도메인에 맞게 파인튜닝하거나 새로운 생성 어플리케이션을 빠르게 프로토타이핑할 수 있게 한다.
요약하면, 칸딘스키 5.0은 데이터 수집·정제·클러스터링부터 다단계 학습·RL‑보상까지 전 과정을 체계화하고, 라인업별 최적화된 아키텍처와 추론 가속 기술을 결합해 이미지·비디오 생성 분야에서 품질·속도·접근성 삼박자를 동시에 만족시키는 최초의 통합 파운데이션 모델군이라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기