AdaptPrompt 파라미터 효율적인 VLM 적응으로 범용 딥페이크 탐지
초록
본 논문은 대규모 비전‑언어 모델인 CLIP을 활용해 합성 이미지와 실제 이미지를 구분하는 범용 딥페이크 탐지기를 제안한다. 100 만 장 규모의 Diff‑Gen 데이터셋을 구축하고, 시각 어댑터와 텍스트 프롬프트 튜닝을 동시에 학습하는 AdaptPrompt 프레임워크를 설계한다. 마지막 트랜스포머 블록을 제거해 고주파 아티팩트를 보존함으로써 기존 방법보다 적은 파라미터로 높은 검출 정확도와 교차 도메인 일반화를 달성한다.
상세 분석
AdaptPrompt은 CLIP의 거대한 사전학습 백본을 거의 그대로 유지하면서, 시각 어댑터와 텍스트 프롬프트 두 가지 경량 모듈만을 학습한다는 점에서 파라미터 효율성이 뛰어나다. 시각 어댑터는 기존 CLIP 비전 인코더의 출력에 잔차 형태로 삽입되어, 저차원 bottleneck MLP(다운‑프로젝션 → 비선형 → 업‑프로젝션)를 통해 고주파 잡음과 같은 미세한 생성 아티팩트를 강조한다. 특히, 저자들은 CLIP 비전 인코더의 최종 트랜스포머 블록이 의미론적 추상화에 특화돼 고주파 정보를 소거한다는 가설을 검증하였다. 마지막 블록을 제거하고 penultimate 레이어의 특징을 어댑터에 입력함으로써, diffusion 모델이 남기는 Gaussian‑like 노이즈와 GAN이 남기는 주기적 패턴을 모두 포착할 수 있었다.
텍스트 측면에서는 기존에 “a photo of a fake”와 같은 고정 프롬프트를 사용하는 대신, 클래스별 연속적인 컨텍스트 벡터를 학습한다. 이러한 연속 프롬프트는 텍스트 인코더를 통해 클래스 임베딩을 생성하고, 시각 어댑터가 만든 이미지 임베딩과 코사인 유사도로 매칭한다. 학습 과정은 교차 엔트로피 손실과 온도 파라미터 τ를 이용한 소프트맥스 확률화로 진행되며, 전체 파라미터 중 약 0.1%만 업데이트한다.
데이터 측면에서 저자들은 LSUN과 동일한 20개 카테고리를 유지하면서 100 k개의 diffusion‑generated 이미지를 수집한 Diff‑Gen 벤치마크를 제시한다. 기존 ProGAN 기반 데이터셋은 주기적 업샘플링 아티팩트에 편향돼 있어 diffusion 모델에 대한 일반화가 어려웠지만, Diff‑Gen은 고주파 잡음과 다양한 생성 기법을 포괄한다. 실험에서는 Diff‑Gen으로 사전학습한 모델이 25개의 서로 다른 테스트 셋(다양한 GAN, diffusion, 상용 툴)에서 평균 정밀도(AP)와 정확도 모두 현저히 높은 성능을 보였으며, 특히 미지의 생성 모델에 대해 10‑15% 수준의 성능 향상을 기록했다.
또한, 몇 샷 학습 실험에서 320장의 이미지만으로도 기존 전이 학습 방식보다 빠르게 수렴했으며, 소스 어트리뷰션(생성기 아키텍처 식별) 태스크에서도 90% 이상의 정확도를 달성했다. 파라미터 효율성, 고주파 정보 보존, 그리고 텍스트‑시각 양쪽의 적응을 동시에 수행한 AdaptPrompt은 기존의 선형 프로빙, 전면 파인튜닝, 단일 어댑터 혹은 프롬프트 튜닝보다 전반적인 성능‑효율 트레이드오프에서 우위를 점한다.
댓글 및 학술 토론
Loading comments...
의견 남기기