포렌식허브: 전 영역 가짜 이미지 탐지·위치 지정 통합 벤치마크
초록
포렌식허브(ForensicHub)는 딥페이크, 이미지 변조, AI 생성 이미지, 문서 위변조 등 네 가지 가짜 이미지 탐지·위치 지정(FIDL) 분야를 하나의 통합 벤치마크와 코드베이스로 묶은 시스템이다. 모듈형·구성 파일 기반 아키텍처로 데이터셋, 전처리, 모델, 평가자를 자유롭게 조합할 수 있게 설계했으며, 기존 DeepfakeBench와 IMDLBenCo를 어댑터 방식으로 호환한다. 10개 기본 모델·6개 백본·23개 데이터셋·42개 모델·11개 GPU 가속 평가 지표를 제공하고, AIGC와 문서 영역에 대한 신규 벤치마크를 추가한다. 이를 통해 도메인 간 실험 재현성·비교 가능성을 확보하고, 8가지 실증적 인사이트를 도출한다.
상세 분석
포렌식허브는 FIDL(Fake Image Detection and Localization) 분야의 구조적 문제점을 정확히 짚어낸다. 첫째, 네 개 도메인(Deepfake, IMDL, AIGC, Document)은 각각 데이터 포맷, 라벨링 방식, 사용되는 백본·아티팩트 추출 전략이 달라 서로 호환되지 못한다. 저자는 이를 “도메인 사일로”라 명명하고, 통합 벤치마크 부재가 연구 중복과 일반화 성능 저하를 초래한다는 점을 강조한다.
둘째, 모듈형 설계는 데이터셋, Transform, Model, Evaluator를 각각 독립적인 인터페이스로 정의한다. 특히 YAML 기반 구성 파일을 통해 코드 없이 파이프라인을 정의할 수 있게 함으로써, 연구자는 새로운 데이터셋을 추가하거나 기존 모델을 다른 도메인에 적용할 때 최소한의 수정만으로 실험을 재현할 수 있다. 어댑터 레이어는 DeepfakeBench와 IMDLBenCo의 기존 API를 그대로 감싸, 기존 코드와 데이터셋을 재사용하게 한다.
셋째, 구현된 10개의 베이스라인 모델 중 3개는 논문 수준을 재현하기 위해 처음부터 구현했으며, 6개의 백본(ResNet, Xception, EfficientNet, SegFormer, Swin‑Transformer, ConvNeXt) 모두 최신 이미지 분류·세그멘테이션에 최적화된 구조를 제공한다. 모델 출력은 이미지‑레벨(진위 라벨)과 픽셀‑레벨(위조 마스크) 두 가지 형태를 모두 지원하도록 통일했으며, 이는 다중 태스크 학습과 교차 도메인 평가를 가능하게 한다.
넷째, 평가 메트릭은 AP, MCC, TNR, TPR, AUC, ACC, F1, IoU 등 11종을 GPU 가속으로 구현해 대규모 실험에서도 효율성을 확보한다. 모든 메트릭은 0.5 임계값을 기본으로 하여 공정한 비교를 보장한다.
다섯째, 포렌식허브는 두 개의 신규 벤치마크 프로토콜을 제시한다. AIGC 분야는 DiffusionForensics와 GenImage 두 데이터셋을 사용해 생성 모델 다양성을 평가하고, Document 분야는 Doctamper, T‑SROIE 등 실제 문서 위변조 데이터를 포함한다. 두 프로토콜 모두 “일반화”를 핵심 목표로, 훈련‑테스트 도메인 교차 실험을 지원한다.
여덟 가지 인사이트는 모델 아키텍처(멀티‑스케일·주파수·텍스처 결합이 효과적), 데이터 특성(수동 라벨링이 높은 품질을 제공), 평가 표준(픽셀‑레벨과 이미지‑레벨 지표를 동시에 사용해야 실제 성능을 정확히 파악) 등을 포함한다. 특히, 백본 선택이 도메인마다 큰 차이를 만들며, Xception과 HRNet이 변조 탐지에 강점이 있는 반면, Vision‑Language 모델(CLIP‑ViT) 기반은 AIGC 전반에 걸쳐 좋은 일반화 능력을 보인다.
전체적으로 포렌식허브는 FIDL 연구의 “통합·재현·확장”을 위한 인프라를 제공함으로써, 앞으로 다중 도메인 통합 탐지 모델 개발과 실세계 적용을 가속화할 기반을 마련한다.
댓글 및 학술 토론
Loading comments...
의견 남기기