색상으로 구분한다: 디모사이싱 기반 AI 이미지 탐지
초록
본 논문은 카메라 이미지 파이프라인의 색상 필터 어레이(CFA)와 디모사이싱 과정을 활용해, 사진과 AI‑생성 이미지를 구분하는 새로운 프레임워크 DCCT를 제안한다. CFA 샘플링을 시뮬레이션해 단일 채널을 입력으로, 나머지 두 채널을 목표로 삼아 U‑Net 기반 자기지도 학습을 수행하고, 혼합 로지스틱 분포로 조건부 확률을 모델링한다. 이 과정에서 고주파 잔차에 대한 색상 상관 특성을 추출하고, 이 특성을 이용해 경량 이진 분류기를 학습한다. 이론적으로는 두 도메인 간 1‑Wasserstein 거리의 하한을 보이며, 실험에서는 20여 개의 미보인 생성 모델에 대해 최첨단 일반화 성능을 달성한다.
상세 분석
DCCT는 카메라 이미지 형성 과정에서 발생하는 물리적 색상 상관관계를 핵심 신호로 이용한다는 점에서 기존의 아티팩트 기반 탐지와는 근본적으로 차별화된다. 먼저 Bayer CFA의 2×2 패턴을 그대로 모방해 원본 RGB 이미지를 하나의 채널(관측값)과 두 채널(복원 목표)로 분할한다. 이때 관측 채널은 실제 카메라 센서가 기록하는 RAW 형태와 동일한 구조를 가지며, 복원 목표는 디모사이싱 과정에서 추정되는 색상값이다. 고주파 필터링을 적용해 저주파 성분을 제거함으로써, 색상 간 미세한 상관관계—특히 aliasing 서브밴드에서 나타나는 주기적 변조—를 강조한다.
학습 단계에서는 U‑Net을 사용해 pθ(y′|x′)라는 조건부 확률을 추정한다. 출력은 K개의 로지스틱 혼합으로 표현되며, 이는 PixelCNN++에서 차용한 방식으로 연속적인 색상값을 정밀하게 모델링한다. 손실은 음의 로그우도(NLL)이며, 고주파 잔차가 대부분 0에 몰려 있는 특성을 고려해 값 클리핑을 적용한다.
이론적 분석에서는 고주파 잔차 (x′, y′)가 지역적으로 가우시안이라고 가정하고, 1‑Wasserstein 거리의 하한 δ>0을 도출한다. 핵심은 CFA 샘플링이 선형적이고 주기적인 변조를 일으키는 반면, AI‑생성 모델은 디지털 공간에서 직접 RGB 값을 생성하므로 동일한 aliasing 특성을 재현하지 못한다는 점이다. 따라서 조건부 평균 µp와 µq 사이에 비제로 차이가 존재하고, 이는 고주파 색상 상관 특성에서 지속적인 구분 신호를 제공한다.
실험에서는 20여 개 이상의 사전 학습되지 않은 생성 모델(다양한 GAN, Diffusion, 텍스트‑투‑이미지 모델 포함)에 대해 DCCT 기반 특징을 사용한 경량 이진 분류기를 평가한다. 기존 아티팩트 기반 방법과 대규모 사전 학습된 비전‑언어 모델(예: CLIP) 대비, DCCT는 평균 정확도와 AUC에서 현저히 우수한 결과를 보이며, 특히 압축, 노이즈, 색상 변환 등 다양한 왜곡에 대한 견고성도 입증한다.
요약하면, DCCT는 카메라 고유의 물리적 색상 상관을 학습 목표로 삼아, AI‑생성 이미지가 모방하기 어려운 불변 특성을 추출한다. 이는 모델‑특정 아티팩트에 의존하지 않는 일반화 가능한 탐지 체계를 제공한다는 점에서 이미지 포렌식 분야에 중요한 전진을 의미한다.
댓글 및 학술 토론
Loading comments...
의견 남기기