고품질 AI 영상 위조 탐지를 위한 계층형 MPF Net: 정적 매니폴드 편차와 미세시간 변동 분석
초록
MPF-Net은 최신 AI 영상 생성 모델이 남기는 미세한 잔차 패턴(Manifold Projection Fluctuations, MPF)을 활용한다. 정적 매니폴드 편차를 탐지하는 대형 비전 파운데이션 모델(VFM) 기반 첫 번째 경로와, 구조화된 잔차를 분석하는 마이크로‑시간 변동(branch II) 경로를 순차적으로 적용해, 오프‑매니폴드와 온‑매니폴드 위조 영상을 모두 높은 정확도로 구분한다.
상세 분석
본 논문은 “AI‑generated video = manifold fitting process”라는 근본적인 가정을 제시한다. 실제 촬영 영상은 광자 수와 센서 노이즈에 의해 고엔트로피, 이질적인 프레임 잔차를 보이는 반면, 최신 확산 기반 비디오 생성 모델은 고정된 디코더와 연속적인 잠재 공간 이동(Δz)으로 프레임 간 차이를 생성한다. 이때 잔차 ΔI는 디코더의 야코비안 J_D와 Δz의 선형 결합으로 근사될 수 있으며, J_D는 모델 파라미터가 고정돼 있기 때문에 동일한 기저함수 집합을 반복 사용한다. 결과적으로 AI 영상은 구조적 동질성과 시간적 예측 가능성을 가진 잔차 패턴, 즉 MPF를 만든다.
논문은 두 종류의 위조를 구분한다.
-
오프‑매니폴드(Off‑Manifold) 위조: 저해상도, 낮은 FPS, 명백한 의미·물리적 왜곡을 포함한다. 이러한 경우 대형 VFM(예: MetaCLIP2, DINOv2)으로 학습된 풍부한 세계 지식이 “매니폴드 센티넬” 역할을 수행한다. 프레임 단위의 특징을 VFM에 입력해 분포 차이를 측정하면, 실제와 크게 벗어난 샘플을 높은 신뢰도로 검출한다.
-
온‑매니폴드(On‑Manifold) 위조: 최신 모델이 생성한 고품질 영상으로, 시각적으로는 실제와 구분이 어려우며, VFM 기반 정적 검출로는 거의 놓친다. 여기서 논문은 Micro‑Temporal Fluctuation Branch를 도입한다. 연속적인 프레임 샘플을 미세시간 간격으로 추출하고, 잔차를 고차원 특징으로 변환한 뒤, 차원 축소(t‑SNE)와 특수 설계된 차별화 헤드(LoRA‑adapted VFM + Diff Attention)를 통해 MPF 패턴을 학습한다. 실험 결과, 온‑매니폴드 샘플은 MPF‑특징 공간에서 명확히 클러스터를 형성해, 실제 영상과 구분된다.
핵심 기술적 기여는 다음과 같다.
- Manifold Projection Fluctuations (MPF) 정의: 디코더 고정 기반의 선형 잔차 모델링을 통해 AI 영상 고유의 구조화된 잔차를 수학적으로 정립.
- 계층형 이중 경로 설계: 정적 VFM 센티넬 → 미세시간 MPF 분석 순서로, 연산 효율성을 유지하면서 두 종류 위조를 모두 포괄.
- 잔차 추출 및 신호 강화 파이프라인: 차분 연산, Diff Attention, LoRA 파라미터 효율화 등을 결합해 소량의 라벨만으로도 강건한 학습 가능.
- 다양한 벤치마크와 실제 데이터: Sora, Veo, Wan 등 최신 생성 모델과 다양한 실세계 촬영 영상을 사용해, 오프‑매니폴드와 온‑매니폴드 모두에서 95% 이상의 AUC 달성.
또한 논문은 MPF가 프레임 레이트와 품질에 민감함을 언급한다. 낮은 FPS나 고노이즈 환경에서는 MPF 신호가 물리적 잡음에 가려질 수 있어, 첫 번째 정적 경로가 먼저 차단 역할을 수행한다. 반대로 고FPS·고해상도 상황에서는 MPF가 뚜렷이 드러나며, 두 번째 경로가 주된 판단 근거가 된다.
한계점으로는 (1) 고정 디코더 가정이 최신 텍스트‑투‑비디오 모델에서 디코더가 동적으로 업데이트될 경우 적용이 어려울 수 있다. (2) 실시간 스트리밍 환경에서 연속적인 잔차 계산 비용이 아직 최적화되지 않았다. (3) 다양한 카메라 센서 특성을 모두 포괄하려면 추가적인 물리적 노이즈 모델링이 필요하다. 향후 연구에서는 가변 디코더와 멀티‑센서 융합을 통한 MPF 확장, 그리고 경량화된 온라인 탐지기로의 전환을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기