투명 AI 이미지 포렌식, FakeScope: 대규모 멀티모달 전문가 모델
초록
FakeScope는 AI‑생성 이미지 탐지를 위한 대규모 멀티모달 전문가 모델이다. 인간‑기계 협업으로 만든 4만 7천 장 규모의 FakeChain 데이터와 200만 개의 시각적 지시문을 담은 FakeInstruct를 기반으로, 이미지 진위 판단뿐 아니라 시각적 흔적 근거를 자연어로 설명하고, 토큰 기반 확률 추정으로 정량적 신뢰도까지 제공한다. 실험에서 기존 바이너리 탐지기와 최신 LMM을 모두 능가하며, 미보인 생성 모델과 실사용 환경에서도 강인한 일반화 능력을 보인다.
상세 분석
본 논문은 AI‑생성 이미지 포렌식을 ‘이진 분류’에서 ‘설명 가능한 추론’으로 확장하려는 시도를 체계화한다. 핵심 기여는 세 가지 데이터와 모델 설계에 있다. 첫째, FakeChain은 47,594장의 이미지(실제 이미지 23,797장, AI‑생성 이미지 23,797장)를 대상으로 인간 전문가가 정의한 ‘시각적 흔적 증거’ 카테고리를 라벨링하고, 인간·모델 협업(ACoTI) 방식을 통해 장문형 진위 이유를 자동 생성한다. ACoTI는 ‘Steer‑→‑Demonstrate‑→‑Enlighten’ 3단계 파이프라인으로, 소수의 인간 주석만으로 강력한 비전‑언어 모델에게 체인‑오브‑생각(COT) 프롬프트를 적용해 대규모 이유 데이터를 ‘불러낸다’. 이 과정은 라벨링 비용을 크게 절감하면서도 인간 수준의 논리 일관성을 유지한다는 점에서 혁신적이다.
둘째, FakeInstruct는 FakeChain을 기반으로 2백만 개의 시각‑언어 지시문을 생성한다. 각 지시문은 ‘이미지 진위 판단’, ‘증거 설명’, ‘포렌식 분석’, ‘개선 제안’ 등 네 가지 쿼리 유형을 포함하며, 멀티턴 대화 형식으로 설계돼 LMM이 다양한 사용자 질문에 일관된 답변을 생성하도록 훈련한다. 기존 LMM이 주로 ‘분류 + 설명’ 형태의 단일 태스크에 머물렀던 반면, FakeInstruct는 ‘다중 작업·다중 모드’를 동시에 학습시켜 모델 내부에 포렌식 지식을 통합한다.
셋째, FakeScope 자체는 공개된 멀티모달 백본(LLaVA‑v1.5 기반) 위에 FakeInstruct로 미세조정된 전문가 모델이다. 특히, 정량적 신뢰도 추정을 위해 ‘토큰 기반 확률 추정(token‑based probability estimation)’ 방식을 도입했다. 모델이 출력하는 ‘Fake’·‘Real’ 토큰 시퀀스의 로그 확률을 합산해 이미지별 신뢰 점수를 산출함으로써, 별도 회귀 헤드 없이도 zero‑shot 검증 정확도를 확보한다.
실험 결과는 세 가지 축을 중심으로 평가된다. (1) 이진 탐지 정확도: 다양한 공개 데이터셋(DIV2K, ImageNet, DiffusionDB)과 최신 생성 모델(Stable Diffusion, DALL·E 3, Midjourney 등)에서 기존 CNN/VIT 기반 탐지기와 GPT‑4‑V, Gemini‑Pro 등을 모두 앞선 F1‑score와 AUROC를 기록한다. (2) 설명·분석 능력: 인간 평가에서 FakeScope가 제공하는 자연어 근거는 평균 4.3/5점의 설득력을 얻었으며, 특히 ‘미세 포렌식 증거(조명 불일치, 텍스처 비정상 등)’를 정확히 지적하는 비율이 78%에 달한다. (3) 일반화·견고성: ‘Unseen Generator’ 테스트에서 0.92 AUROC, ‘In‑the‑wild’ 사진(노이즈, 압축 등)에서도 0.89 AUROC를 유지한다.
한계점으로는 (i) 현재 모델이 ‘시각적 흔적’에 초점을 맞추어 텍스트‑이미지 혼합 위조(예: 이미지에 삽입된 텍스트 변조)에는 약한 성능을 보이며, (ii) 토큰 기반 확률 추정이 출력 길이에 민감해 길이가 짧은 프롬프트에서는 과신 위험이 있다. 향후 연구에서는 멀티모달 포렌식 증거(오디오·비디오)와 더 정교한 확률 캘리브레이션을 도입할 계획이다.
전반적으로 FakeScope는 대규모 멀티모달 학습과 인간‑기계 협업 데이터 구축을 통해 AI‑생성 이미지 포렌식에 투명성·설명성을 부여한 최초의 통합 전문가 모델이라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기