AI 생성 비디오 탐지를 위한 6백만 규모 대규모 벤치마크 GenVidBench

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
GenVidBench은 6.78 백만 개의 비디오(실제·AI‑생성)와 11개 최신 생성 모델, 텍스트·이미지 프롬프트, 객체·행동·위치 라벨을 포함한 가장 큰 AI‑생성 비디오 탐지 데이터셋이다. 교차 소스·교차 생성자 설계와 경량 버전(GenVidBench‑143k)을 제공해 일반화 성능 평가와 빠른 프로토타이핑을 동시에 가능하게 한다.

상세 분석

**
본 논문은 AI‑생성 비디오 탐지 분야에서 데이터 부족이라는 근본적인 병목을 해결하고자 6.78 백만 개의 비디오를 수집·구성한 GenVidBench을 제안한다. 데이터셋은 두 가지 핵심 설계 원칙을 따른다. 첫째, Cross‑Source 구조로 실제 비디오는 Vript와 HD‑VG‑130M 두 출처에서 확보하고, 각각에 대응하는 가짜 비디오는 동일 프롬프트·이미지를 사용해 서로 다른 생성 모델에서 생성한다. 이는 콘텐츠 자체가 동일함에도 불구하고 생성 방식이 달라지면서 탐지 모델이 단순한 내용 기반 편향을 학습하지 못하도록 만든다. 둘째, Cross‑Generator 설계는 학습 집합에 포함된 4개 모델(Pika, VideoCraftV2, ModelScope, T2V‑Zero)과 테스트 집합에 포함된 5개 모델(MuseV, SVD, CogVideo, Mora, Sora, Kling 등) 사이에 완전한 격리를 둔다. 결과적으로 모델이 특정 생성기의 특성에 과적합되는 위험을 최소화하고, 실제 서비스 환경에서 “알 수 없는” 생성기를 마주했을 때의 일반화 능력을 평가할 수 있다.

데이터셋의 다양성도 눈에 띈다. 해상도는 256×256부터 1920×1080까지, 프레임 레이트는 4 FPS에서 30 FPS까지 다양하며, 텍스트‑투‑비디오(T2V)와 이미지‑투‑비디오(I2V) 두 가지 생성 파이프라인을 모두 포함한다. 또한 3차원 의미 라벨(객체 · 행동 · 위치)을 제공해, 특정 시나리오(예: 사람·실내·활동)에서 모델 성능을 세분화해 분석할 수 있다. 이는 기존 GVD, GenVideo, GVF 등과 달리 라벨링 수준이 한 단계 높아, 의미 기반 오류 진단이 가능하도록 만든다.

실험에서는 VideoSwin‑tiny, DeMamba, UniformerV2 등 최신 비디오 분류·탐지 모델을 평가하였다. 동일 생성기 내에서 학습·테스트했을 때는 97 % 이상의 정확도를 기록했지만, 교차 생성기 상황에서는 정확도가 50 % 대까지 급락한다. 특히 Pika → SVD 전이에서 54.66 %에 머무는 등, 현재 모델들이 생성기 간 차이를 포착하는 데 한계가 있음을 명확히 보여준다. 의미 라벨을 활용한 세부 분석에서는 ‘사람·실내·활동’ 카테고리가 가장 높은 오류율을 보였으며, 이는 복합적인 움직임과 배경 변화가 포렌식 신호를 희석시키는 것으로 해석된다.

데이터 규모가 거대함에 따라 컴퓨팅 비용이 문제로 대두된다. 이를 해결하기 위해 143 k 샘플로 구성된 경량 버전(GenVidBench‑143k)을 제시했으며, 이 서브셋은 원본 데이터의 통계적 특성을 유지하면서 빠른 실험 사이클을 가능하게 한다. 또한, 데이터셋 공개와 함께 코드·프롬프트·라벨링 스키마를 제공해 재현성을 높이고, 향후 새로운 생성 모델이 등장했을 때 쉽게 확장·업데이트할 수 있는 구조를 갖춘다.

전반적으로 GenVidBench은 (1) 규모, (2) 교차 소스·생성자 설계, (3) 풍부한 의미 라벨, (4) 경량 서브셋 제공이라는 네 가지 핵심 강점을 통해 AI‑생성 비디오 탐지 연구의 새로운 기준점을 제시한다. 향후 연구는 (a) 멀티모달 포렌식 특징(오디오·텍스트·메타데이터) 결합, (b) 도메인 적응 및 메타‑학습을 통한 생성기 불확실성 완화, (c) 라벨 기반 오류 분석을 통한 모델 해석 가능성 증진 등에 초점을 맞출 수 있다.

AI 생성 비디오 탐지를 위한 6백만 규모 대규모 벤치마크 GenVidBench

초록

상세 분석

댓글 및 학술 토론

의견 남기기