생성 비디오 탐지를 위한 공간시간 가능도 기반 무학습 방법

본 연구는 AI 생성 비디오의 급증과 이에 따른 허위 정보 위험을 배경으로, 기존 이미지‑기반 탐지기의 시간적 한계와 감독 학습 기반 비디오 탐지기의 새로운 생성 모델에 대한 일반화 문제를 지적한다. 이러한 문제를 해결하기 위해 ‘STALL(Spatial‑Temporal Aggregated Log‑Likelihoods)’이라는 무학습 제로샷 탐지기를 제안한다. STALL은 두 가지 핵심 구성 요소인 공간 가능도와 시간 가능도를 결합한 확률적 점수 체계를 갖는다. 먼저, 공간 가능도는 사전 학습된 비전 인코더(DINOv3 등)를 사용해 각 프레임을 d 차원의 임베딩으로 변환한다. 실영상 데이터셋(캘리브레이션 세트)에서 추출한 모든 프레임 임베딩을 이용해 평균 μ와 공분산 Σ를 계산하고, PCA‑화이트닝 변환 W를 구한다. 화이트닝된 임베딩 y = W(x‑μ)는 평균 0, 공분산 I를 갖는 정규분포를 가정할 수 있으며, 이때 로그 가능도는 ℓ(y)=−½(‖y‖²+ d·log(2π)) 로 간단히 계산된다. 테스트 비디오의 각 프레임에 대해 동일한 변환을 적용하고, 프레임별 로그 가능도 중 최대값을 공간 점수 s_sp로 채택한다. 이는 비디오 전체에서 가장 ‘비현실적인’ 프레임을 강조함으로써 위조 비디오를 효과적으로 탐지한다. 시간 가능도는 프레임 간 차이 벡터 Δt = x_{t+1}‑x_t 를 이용한다. 원본 차이 벡터는 크기가 크게 변동하고 방향이 무작위이기 때문에 직접 정규분포로 모델링하기 어렵다. 따라서 차이 벡터를 정규화하여 단위 구면 위에 투사(˜Δt = Δt / ‖Δt‖)하고, 이 정규화된 벡터들에 대해 동일한 화이트닝 절차를 수행한다. 고차원에서 방향이 균등하게 분포한다는 Maxwell‑Poincaré 정리에 따라 정규화된 차이 벡터는 각 좌표가 근사적으로 가우시안 분포를 따른다. 화이트닝된 전이 임베딩 z_t에 대해 로그 가능도 ℓ(z_t)를 계산하고, 전체 전이 중 최소값을 시간 점수 s_temp로 정의한다. 이는 비디오 전체에서 가장 ‘비자연스러운’ 움직임을 포착한다. 두 점수는 퍼센타일 변환 후 평균을 취해 최종 비디오 점수 s_video = ½(perc(s_sp)+perc(s_temp)) 로 결합된다. 이 방식은 공간과 시간 정보가 서로 보완적이라는 실험적 관찰(각 점수 간 상관관계가 낮음)을 기반으로 하며, 어느 한쪽만으로는 구분이 어려운 경우에도 강건한 판별을 가능하게 한다. 실험에서는 두 개의 공개 벤치마크(예: V‑Tex, GenVideo)와 저자 자체 제작한 ComGenVid(최신 Sora, V‑eo‑3 등 포함)에서 평가하였다. STALL은 기존 이미지‑전용 제로샷 탐지기(ZED)와 시간‑전용 탐지기(D3)보다 평균 AUROC가 3~7%p 상승했으며, 특히 복합적인 위조(높은 공간 사실성·낮은 시간 일관성) 상황에서 뛰어난 성능을 보였다. 또한 프레임 레이트 변화, JPEG 압축, 색상 변형 등 일반적인 영상 변조에 대해서도 안정적인 결과를 유지했다. 이 논문의 주요 기여는 다음과 같다. (1) 고차원 임베딩의 화이트닝을 이용한 공간 가능도 모델링을 비디오 도메인에 확장, (2) 정규화된 프레임 전이 벡터에 대한 가우시안 가정과 Maxwell‑Poincaré 정리를 활용한 시간 가능도 설계, (3) 두 가능도를 보수적으로 결합한 통합 점수 체계, (4) 기존 방법들을 능가하는 제로샷 성능 입증, (5) 최신 생성 모델을 포함한 새로운 벤치마크 ComGenVid 공개. 전반적으로 STALL은 학습 없이도 실제 비디오 통계에 기반한 확률적 판단을 제공함으로써, 빠르게 진화하는 생성 비디오 생태계에 대응할 수 있는 실용적이고 이론적으로 탄탄한 솔루션을 제시한다.

생성 비디오 탐지를 위한 공간시간 가능도 기반 무학습 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기