인 프로세싱 생성 이미지 워터마크, 의미 변조에 취약하다

본 논문은 고품질 텍스트‑투‑이미지 확산 모델에 내장된 인‑프로세싱 워터마크가 의미 수준의 변조(semantic drift)에도 견디는지를 체계적으로 조사한다. 연구 배경으로는 생성 AI의 급속한 보급으로 인해 이미지 출처를 검증하고 저작권을 보호하기 위한 워터마크 기술이 필수화되고 있다는 점을 들며, 기존 워터마크는 픽셀‑레벨 변형에 강인함을 보였지만 의미‑레벨 편집에 대한 평가가 부족함을 지적한다. 논문은 먼저 “멀티‑스테이지 의미 변조 프레임워크”를 제안한다. 이 프레임워크는 (i) 오프‑더‑쉘 객체 탐지·세그멘테이션 모델(Mask‑RCNN 등)로 편집 대상 영역을 자동 추출하고, (ii) 텍스트 프롬프트를 기반으로 Stable‑Diffusion 인페인팅 혹은 재생성 모델을 호출해 해당 영역을 의미적으로 다른 내용으로 교체한다. 교체된 영역은 원본 이미지와 픽셀‑레벨에서 거의 차이가 없으며, CLIP‑Score·Semantic‑Similarity 지표를 통해 의미 변조 정도를 정량화한다. 실험에 사용된 워터마크는 세 가지 대표적인 인‑프로세싱 방식이다. 첫 번째인 Stable‑Signature은 VAE 디코더를 시그니처에 조건화해 학습함으로써, 디코딩 단계에서 시그니처가 자연스럽게 이미지에 삽입된다. 두 번째인 Tree‑Ring은 초기 잠재 노이즈에 사전 정의된 푸리에 패턴을 삽입해, 역샘플링을 통해 노이즈를 복원하고 FFT를 적용해 패턴을 검출한다. 세 번째인 Gaussian‑Shading은 암호화된 비트스트링에 따라 잠재 공간을 구역화하고, 각 구역에서 샘플링된 값이 비트와 일대일 대응하도록 설계한다. 각 워터마크는 기존 WAVES·W‑Bench 등 표준 벤치마크에서 JPEG 압축, 가우시안 노이즈, 회전·축소 등 전통적인 공격에 대해 95% 이상 검출률을 기록했다. 그러나 논문이 제시한 의미 변조 시나리오(예: 사람 → 동물, 자동차 → 자전거, 실내 → 실외, 배경 교체 등)에서는 검출률이 급격히 하락했다. 구체적으로, Stable‑Signature은 의미 변조 후 평균 검출률이 12% 수준으로 떨어졌으며, Tree‑Ring은 18%, Gaussian‑Shading은 9%에 머물렀다. 특히 객체 수준 교체가 다수 포함된 경우, 푸리에 패턴 자체가 왜곡되어 Tree‑Ring도 거의 검출되지 않았다. 논문은 또한 전통적인 이미지‑처리 기반 공격을 강화된 벤치마크로 제시한다. 시임 카빙(seam carving) 기반 리사이징, 다운샘플링·업샘플링, 모폴로지 연산(침식·팽창), 임펄스 노이즈, 블록 셔플링 등은 시각 품질을 크게 손상시키지 않으면서도 워터마크 검출률을 30% 이하로 낮출 수 있었다. 의미 변조와 결합했을 때는 검출률이 거의 0에 수렴했다. 보안 모델링은 블랙‑박스 위협 모델을 채택한다. 공격자는 워터마크 시그니처와 모델 파라미터를 알 수 없으며, 오직 워터마크가 삽입된 이미지와 공개된 의미 편집 API만 사용할 수 있다. 이는 실제 Model‑as‑a‑Service(MaaS) 환경을 그대로 재현한 것으로, 연구 결과는 상용 서비스에서도 동일한 취약점이 존재함을 시사한다. 결론적으로, 인‑프로세싱 워터마크가 “시멘틱 엔탱글먼트”를 통해 강인성을 얻는다고 가정했지만, 의미 수준의 편집이 그 엔탱글먼트를 역으로 파괴한다는 역설을 발견했다. 따라서 향후 워터마크 설계는 (1) 의미‑레벨 신호를 별도로 보강하거나, (2) 의미 변조 탐지를 위한 메타‑데이터(예: 객체 레이블, 시맨틱 맵)와 결합하는 방안을 모색해야 한다. 또한 평가 프로토콜에 의미 변조 시나리오를 표준화함으로써, 실제 악의적 사용 사례에 대비한 보다 실용적인 인증 체계를 구축할 필요가 있다.

인 프로세싱 생성 이미지 워터마크, 의미 변조에 취약하다

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기