오픈베이 3M: 대규모 고품질 영상 편집 데이터셋과 새로운 벤치마크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

OpenVE-3M은 3백만 개의 영상‑편집 쌍을 포함한 대규모 오픈소스 데이터셋으로, 공간 정렬 편집과 비정렬 편집을 각각 6·2가지 유형으로 구분한다. 정교한 3단계 파이프라인과 VLM 기반 품질 필터링을 통해 평균 40.6단어의 상세 지시문과 높은 시각·일관성 점수를 달성했다. 또한 431개 샘플로 구성된 OpenVE‑Bench을 제시하고, 5B 파라미터 규모의 OpenVE‑Edit 모델이 14B 기반 모델을 능가하는 SOTA 성능을 기록한다.

상세 분석

본 논문은 영상 편집 분야에서 가장 큰 격차였던 “대규모·고품질·다양한 편집 유형” 데이터셋을 메우기 위해 OpenVE‑3M을 설계·제공한다. 데이터 구축은 (1) 영상 전처리 단계에서 1 M개의 고해상도 영상(720p, 65129프레임)과 함께 객체 검출·세분화·깊이·에지 정보를 다중모델(QLM‑72B, Grounded‑SAM2, Video‑DepthAnything 등)으로 추출한다. (2) 분류‑가이드 생성 단계에서는 8가지 편집 카테고리를 사전 정의하고, 각 카테고리마다 GPT‑4o가 생성한 상세 지시문을 기반으로 FLUX‑K, Wan2.1‑Control, Seedance 등 이미지·영상 생성 모델을 조합해 편집 영상을 만든다. 특히 “배경 교체”는 전경 마스크와 IoU 0.95 기준을 이용해 정확한 전경을 확보하고, “로컬 추가/제거”는 DiffEraser와 FLUX‑K를 교차 활용해 합성·원본을 서로 뒤바꾸는 혁신적 파이프라인을 적용한다. (3) 품질 필터링 단계에서는 Instruction Compliance, Consistency & Detail Fidelity, Visual Quality & Stability 세 축을 15점으로 평가하고, Intern‑VL‑3.5‑38B를 주요 스코어링 엔진으로 채택해 3점 이상인 샘플만 보존한다. 이 과정에서 300개 샘플에 대한 인간 라벨링을 통해 VLM의 정확도를 검증했으며, 최종 데이터셋은 평균 지시문 길이 40.6단어, 시각·일관성 평균 3.86점으로 기존 InsViE‑1M·Senorita‑2M·Ditto‑1M을 크게 앞선다.

데이터셋 규모는 3 M쌍(8 카테고리)이며, 프레임 수는 65~129프레임, 해상도 1280×720으로 실사용에 충분한 품질을 제공한다. 또한, OpenVE‑Bench이라는 통합 벤치마크를 구축해 431개 편집 쌍을 선정하고, 세 가지 인간 정렬 평가 지표(Instruction Compliance, Consistency & Detail Fidelity, Visual Quality & Stability)를 VLM에 입력해 자동 점수를 산출한다. 이는 기존 데이터셋이 제공하던 단순 정확도 평가와 달리 인간 감각과 높은 상관관계를 보인다.

모델 측면에서는 5 B 파라미터 규모의 OpenVE‑Edit을 제안한다. 핵심은 (i) 멀티모달 LLM이 영상과 텍스트를 동시에 인코딩해 고수준 지시 표현을 추출하고, (ii) MoE‑Connector가 편집 유형별 전문가 네트워크(예: 스타일 전환, 객체 추가·제거, 샷 전환 등)를 동적으로 라우팅한다. 마지막으로 Diffusion Transformer(DiT)가 시공간 일관성을 유지하면서 고해상도 영상을 생성한다. 훈련 효율을 위해 전문가 네트워크의 최종 선형 레이어를 0으로 초기화해 불필요한 잡음을 억제한다. 실험 결과, OpenVE‑Edit은 OpenVE‑Bench에서 14 B 규모의 기존 오픈소스 모델을 능가하며, 특히 NSA(비정렬) 편집에서 큰 격차를 보인다. 이는 작은 모델이라도 데이터와 아키텍처 설계가 적절하면 고성능 영상 편집이 가능함을 증명한다.

전체적으로 본 연구는 (1) 대규모·다양한 편집 유형을 포괄하는 고품질 데이터셋 제공, (2) 자동·신뢰성 높은 품질 필터링 파이프라인 제시, (3) 통합 벤치마크와 인간 정렬 평가 지표 도입, (4) 효율적인 5 B 모델로 SOTA 달성이라는 네 가지 핵심 기여를 한다. 향후 연구는 데이터셋에 더 많은 복합 편집(예: 물리 기반 효과)과 멀티모달 상호작용(음성·텍스트·제스처) 등을 추가하고, OpenVE‑Edit을 기반으로 실시간 편집 및 사용자 맞춤형 인터페이스 개발로 확장할 여지가 크다.

오픈베이 3M: 대규모 고품질 영상 편집 데이터셋과 새로운 벤치마크

초록

상세 분석

댓글 및 학술 토론

의견 남기기