장면 전환 인식을 강화한 비디오 생성
초록
본 논문은 단일 장면에 최적화된 기존 텍스트‑투‑비디오 모델이 복수 장면을 요구하는 프롬프트에서 전환을 인식하지 못하는 문제를 지적하고, 다중 장면 전환이 포함된 TAV 데이터셋을 구축해 후학습(post‑training)함으로써 장면 전환 인식을 크게 향상시켰음을 보여준다. 후학습 후 모델은 평균 생성 장면 수가 2를 초과하고, 영상 품질과 동적 일관성도 유지·향상된다.
상세 분석
이 연구는 현재 공개된 텍스트‑투‑비디오 모델이 대부분 단일 장면 클립을 학습 데이터로 사용함에 따라, 프롬프트에 명시된 복수 장면 전환을 인식하지 못하는 근본적인 한계를 정확히 짚어낸다. 저자들은 먼저 웹‑스케일 비디오‑텍스트 데이터셋(예: WebVid‑10M, Panda‑70M 등)의 90% 이상이 단일 장면임을 통계적으로 확인하고, 이러한 데이터 편향이 모델의 ‘장면 전환 감지 능력’ 부재를 초래한다는 가설을 세운다.
이를 해결하기 위해 제안된 TAV(Transition‑Aware Video) 데이터셋은 500개의 10초 길이 비디오 클립을 선정하고, 각 클립에서 첫 번째 장면 전환을 자동 검출한 뒤 전후 5초씩을 포함한 구간을 추출한다. 장면 전환 검출은 HSV 색상 공간에서 프레임 간 평균 픽셀 차이를 가중합한 Vₜ 값을 이용해 임계값을 초과하면 컷을 인식하도록 설계되었으며, 이는 기존 PySceneDetect 방식에 가중치를 부여해 민감도를 조절한 변형이다.
클립당 두 개의 장면에 대해 BLIP 모델을 활용해 별도 텍스트 설명을 생성하고, “Previous scene: … Next scene: …” 형태의 프롬프트로 결합한다. 이렇게 만든 500개의 비디오‑프롬프트 쌍은 원본 OpenSora‑Plan v1.3.1 모델에 100 스텝(학습당 2시간) 정도의 짧은 후학습을 수행한다. 학습 설정은 DeepSpeed Zero‑2, mT5‑XXL 텍스트 인코더, 256×256 해상도, 8 FPS, EMA 등 최신 대규모 비디오 디퓨전 파이프라인을 그대로 적용해 재현성을 높였다.
실험은 세 가지 프롬프트 그룹(A: 단일 장면, B: 암시적 두 장면, C: 명시적 두 장면)으로 나누어, 후학습 전후 모델이 생성한 평균 장면 수와 VBench 기반 영상 품질 지표를 비교했다. 결과는 후학습 모델이 B·C 그룹에서 평균 장면 수가 1.0에서 2.0 이상으로 크게 상승했으며, 특히 24 epoch 이후에는 2.7~2.9까지 도달했다는 점을 보여준다. 동시에 aesthetic quality, dynamic consistency, imaging quality 등 주요 품질 지표는 크게 저하되지 않고 오히려 소폭 개선되었다. 이는 장면 전환 인식 능력이 향상되면서도 디퓨전 기반 영상 생성의 기본 품질은 유지된다는 중요한 시사점을 제공한다.
한계점으로는 데이터 규모가 제한적(500개 클립)이며, 전환 검출 임계값이 경험적 설정에 의존한다는 점, 그리고 현재는 오직 OpenSora 기반 모델에만 적용했다는 점을 인정한다. 향후 연구에서는 다양한 장면 전환 검출 알고리즘과 더 큰 멀티‑씬 데이터셋을 활용해 일반화 능력을 검증하고, 텍스트‑투‑비디오 파이프라인 전반에 장면 전환 모듈을 통합하는 방안을 모색할 필요가 있다.
전반적으로 이 논문은 “데이터 중심” 접근을 통해 비디오 생성 모델의 장면 전환 인식을 강화할 수 있음을 실증적으로 증명했으며, 멀티‑씬 스토리텔링 비디오 생성 연구에 새로운 벤치마크와 방법론을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기