RealHD: 고품질 AI 이미지 위조 탐지 데이터셋
초록
RealHD는 73만 장 이상의 고해상도 실이미지와 최신 텍스트‑투‑이미지, 인페인팅, 이미지 리파인먼트, 페이스 스와핑 등 4가지 생성 방식을 활용한 AI‑생성 이미지를 포함한 대규모 데이터셋이다. 각 합성 이미지에 생성 방법·카테고리 메타데이터와 인페인팅 마스크를 제공하며, 고품질 실이미지는 PNG·고품질 JPEG(품질≥90) 형태로 저장된다. 데이터셋 기반 학습 모델은 기존 데이터셋 대비 일반화 능력이 크게 향상되었으며, 논문에서는 비국소 평균(NLM) 잡음 엔트로피를 이용한 경량 탐지 기법을 제안한다.
상세 분석
본 논문은 AI‑생성 이미지 탐지 분야에서 데이터셋의 품질과 다양성이 모델 일반화에 미치는 영향을 정량적으로 입증한다. 기존 데이터셋(UADFV, ForgeryNet, DE‑FAKE 등)은 주로 얼굴 위조에 국한되거나 텍스트‑투‑이미지 한 종류만 포함하고, 이미지 해상도·압축 품질이 낮아 실제 서비스 환경에서의 전이 성능이 제한적이었다. RealHD는 이러한 한계를 극복하기 위해 다음과 같은 설계 원칙을 적용하였다.
-
고품질 실이미지 확보: 전통 회화·동양 서예·현대 사진·뉴스 사진 등 5대 카테고리에서 200 000여 장을 수집하고, TIFF·RAW·PNG 등 무손실 포맷을 PNG(8‑bit)로 변환하거나 JPEG(품질≥90)으로 저장하였다. 해상도 분포는 10⁶ 픽셀 이상이 73 %에 달해 소셜 미디어 수준에 근접한다.
-
다양한 생성 태스크: 텍스트‑투‑이미지(T2I), 이미지 인페인팅(INP), 이미지 리파인먼트(REF), 페이스 스와핑(FS) 네 가지를 모두 포함한다. 특히 인페인팅은 binary mask를 함께 제공해 영역‑별 분석이 가능하도록 설계했다.
-
세밀한 프롬프트 설계: 10 000개 이상의 프롬프트를 15개의 서브 코퍼스(인물·예술·풍경·동물·뉴스)와 5대 카테고리 템플릿에 맞춰 LLM(GPT‑4o, Qwen‑72B 등)과 인간 전문가가 협업해 생성하였다. 프롬프트 길이는 평균 30 토큰 이상이며, 스타일·배경·조명·구도 등 풍부한 속성을 포함한다.
-
메타데이터와 정제: 각 합성 이미지에 ‘generation method’, ‘category’, ‘source image ID(리파인먼트)’ 등을 라벨링하고, 인간 검수 과정을 거쳐 품질을 보장한다.
실험에서는 RealHD 기반으로 훈련한 Xception, ConvNeXt 등 최신 CNN/ViT 모델이 기존 데이터셋(GenImage, DiffusionForensics 등)에서 훈련된 모델 대비 Chameleon 테스트셋에서 정확도 85 %→99 % 수준, AUC 0.951→0.9996까지 상승함을 보고한다. 이는 다중 생성 태스크와 고해상도·다양한 도메인 이미지가 모델의 잡음·주파수·텍스처 패턴 학습을 촉진한다는 증거다.
또한 논문은 Noise Entropy 기반 경량 탐지기를 제안한다. 이미지에 Non‑Local Means(NLM) 필터를 적용해 잡음 성분을 추출하고, 해당 잡음의 엔트로피 맵을 텐서 형태로 변환해 간단한 MLP 또는 1‑D CNN에 입력한다. 기존 RGB 기반 엔드‑투‑엔드 모델 대비 파라미터 수가 10배 이하이면서도 Xception 대비 정확도 15.9 %·AUC 5 % 향상을 달성한다. 이는 고주파 잡음 패턴이 최신 디퓨전 모델에서도 남는 흔적임을 확인시킨다.
한계점으로는 생성 모델이 지속적으로 진화함에 따라 새로운 아키텍처(예: Stable Diffusion XL, Midjourney V6 등)에 대한 테스트가 부족하고, 인페인팅 마스크가 정형화된 사각형 형태에 국한돼 복잡한 자유형 마스크에 대한 평가가 미비하다는 점을 언급한다. 향후 데이터셋 업데이트와 마스크 다양화가 필요하다.
전반적으로 RealHD는 품질·다양성·메타데이터 3요소를 모두 갖춘 최초의 대규모 AI‑이미지 위조 탐지 데이터셋으로, 향후 연구·산업 현장에서 신뢰성 높은 위조 탐지 모델 개발에 핵심 인프라가 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기