확산 기반 이미지 편집이 워터마크를 지우는 이유

확산 모델을 이용한 이미지 편집은 큰 노이즈를 주입하고 고성능 생성자를 통해 재구성함으로써, 기존 워터마크가 의도한 저진폭 신호를 급격히 약화시킨다. 논문은 이를 확률적 마르코프 커널로 모델링하고, 전진 노이즈 스케줄에 따른 SNR 감소와 상호정보 감소를 정량화한다. 실험 결과는 텍스트 기반, 드래그 기반, 합성 기반 등 다양한 편집 파이프라인에서 대표적인 강인 워터마크(StegaStamp, TrustMark, VINE)의 복원율이 크게 떨어짐…

저자: Qian Qi, Jiangyun Tang, Jim Lee

본 논문은 최근 급부상한 확산 모델 기반 이미지 편집이 기존의 강인 보이지 않는 워터마크에 미치는 영향을 체계적으로 분석한다. 서론에서는 전통적인 워터마크가 JPEG 압축, 리사이징, 블러, 가우시안 노이즈 등 비교적 작은 변환에 대해 강인하도록 설계됐지만, 확산 편집은 이미지에 큰 노이즈를 주입하고 고성능 생성자를 통해 재구성함으로써 전혀 다른 변환 클래스를 만든다고 지적한다. 이러한 변환은 워터마크가 의도한 저진폭 신호를 “비자연스러운” 잡음으로 인식하고 제거하는 경향이 있다. 논문의 주요 기여는 네 가지로 정리된다. 첫째, 확산 기반 편집을 “노이즈 주입 → 조건부 역확산”이라는 두 단계 확률 변환으로 모델링하고, 이를 마르코프 커널 K_T(˜x|x_w, y) 로 수식화한다. 전진 노이즈 단계에서 이미지에 가우시안 잡음이 추가되며, 워터마크 신호 s는 평균 0인 랜덤 신호와 독립적으로 섞여 SNR이 ᾱ_t에 비례해 지수적으로 감소한다. 둘째, 이론적 분석을 통해 전진 노이즈와 역확산 과정에서 발생하는 SNR 감소와 상호정보 I(m;˜x) 감소를 정량화한다. 특히, 상호정보는 I(m;x_w)·ᾱ_t 이하로 제한되며, Fano 불평등을 적용하면 비트 오류율이 일정 수준 이상으로 상승함을 보인다. 셋째, 다양한 확산 편집 파이프라인을 포함한 실험 프로토콜을 설계한다. 텍스트 기반 편집(InstructPix2Pix, UltraEdit), 드래그 기반 편집(DragDiffusion, InstantDrag, DragFlow), 무학습 합성(TF‑ICON, SHINE) 등 6가지 시나리오와 StegaStamp, TrustMark, VINE 등 3가지 대표 워터마크를 대상으로 벤치마크를 수행한다. 실험 결과는 편집 강도 t★가 0.4~0.6 구간에서 워터마크 복원율이 70 % 이하로 급락하고, 특히 드래그 기반 편집은 지역적인 변형에도 불구하고 전역적인 신호 억제를 일으킨다. 넷째, 이러한 현상을 완화하기 위한 설계 원칙을 제시한다. 첫 번째는 워터마크를 확산 초기 노이즈에 직접 삽입하는 “diffusion‑native fingerprint” 방식으로, 이는 초기 노이즈 자체가 생성 과정에 포함되므로 역확산 단계에서 제거되기 어렵다. 두 번째는 의미 불변성(semantic invariance)을 목표로 하는 손실 함수를 도입해 워터마크가 이미지의 고차원 의미와 연계되도록 하는 방법이다. 이러한 접근은 단순히 픽셀 레벨의 작은 변동에 의존하는 기존 방법보다 확산 편집에 대한 내성을 크게 향상시킨다. 관련 연구 섹션에서는 확산 모델과 이미지 편집, 기존 강인 워터마크, 생성 모델 기반 워터마크, 그리고 워터마크 제거 공격을 포괄적으로 정리한다. 특히, 개념 삭제(concept erasure) 연구가 워터마크 신호도 선택적으로 억제될 수 있음을 보여주며, 이는 워터마크 설계가 생성 모델과 공동 최적화되지 않을 경우 취약함을 시사한다. 방법론에서는 수학적 표기와 가정(균형 페이로드 임베딩, 저진폭 신호 모델) 하에 워터마크 신호가 전진 노이즈 과정에서 어떻게 감소하는지를 상세히 유도한다. 마르코프 커널 K_T는 전진 노이즈 분포 p(x_t⋆|x_w)와 조건부 역확산 분포 p_θ(˜x|x_t⋆, y) 의 결합으로 정의되며, 다양한 편집 기법은 p_θ의 파라미터화와 추가 제약(예: 지역 제약, 어텐션 재가중치)으로 구분된다. 이론적 결과는 “SNR_t = γ²·Var(s)·ᾱ_t/(1‑ᾱ_t)”와 “I(m;˜x) ≤ ᾱ_t·I(m;x_w)” 라는 두 핵심 식으로 요약된다. 실험에서는 각 편집 강도와 편집 종류에 따른 워터마크 복원 정확도, 비트 오류율, 그리고 PSNR/SSIM 변화를 표와 그래프로 제시한다. 특히, 텍스트 기반 편집은 전체 이미지 구조를 크게 바꾸지 않음에도 불구하고 SNR 감소가 눈에 띄게 나타났으며, 드래그 기반 편집은 작은 포인트 이동만으로도 전역적인 신호 억제를 일으켰다. 무학습 합성 파이프라인은 기존 워터마크가 전혀 복원되지 않는 최악의 경우를 보여준다. 마지막으로 윤리적 논의와 설계 가이드라인을 제시한다. 확산 기반 편집이 워터마크를 무의식적으로 제거할 수 있다는 점은 콘텐츠 출처 확인, 저작권 보호, 그리고 책임 추적에 큰 위협이 된다. 따라서 워터마크 설계자는 (i) 생성 모델과 공동 학습하여 워터마크를 모델 내부에 내재화하거나, (ii) 의미 불변성을 고려한 손실 함수를 도입해 워터마크가 의미적 변형에도 유지되도록 해야 한다. 또한, 강인성을 추구하면서도 프라이버시와 편집 유용성 사이의 균형을 고려해야 한다는 점을 강조한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기