한 번에 끝내는 확산 워터마크 추출 OSI

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 초기 노이즈에 삽입된 Gaussian Shading 워터마크를 다중 단계 역전이 없이 단 한 번의 전방 패스로 추출하는 One‑step Inversion(OSI) 방법을 제안한다. OSI는 워터마크 추출을 연속값 회귀가 아닌 부호 분류 문제로 재정의하고, 확산 모델의 백본을 초기화한 뒤 합성된 노이즈‑이미지 쌍으로 학습한다. 실험 결과, 기존 50‑step 역전 대비 20배 빠른 속도와 높은 정확도, 두 배 이상의 페이로드를 달성한다.

상세 분석

OSI는 기존 Gaussian Shading(GS) 방식이 겪는 “정밀한 초기 노이즈 복원”이라는 불필요한 과정을 제거한다는 점에서 혁신적이다. GS는 초기 노이즈 z₀의 부호(m)를 암호화 마스크로 사용하고, 이를 복원하기 위해 50 step DDIM 역전 과정을 거친다. 이 과정은 연산량이 많고, 실제로 워터마크 추출에 필요한 것은 부호 자체뿐이다. OSI는 이를 “부호 분류”라는 이산 문제로 전환함으로써, 연속값 회귀를 위한 복잡한 역전 과정을 배제한다.

구현 측면에서 OSI는 두 개의 학습 가능한 모듈을 도입한다. 첫 번째는 이미지 I를 잠재공간 ẑ₀으로 매핑하는 인코더 Encψ이며, 두 번째는 해당 잠재벡터를 부호 확률 p로 변환하는 분류기 OSIθ이다. 손실 함수는 (1) 부호 라벨 y와 예측 확률 p 사이의 binary cross‑entropy(BCE)와 (2) 인코더 출력 ẑ₀와 실제 초기 노이즈 z₀ 사이의 MSE를 결합한다. BCE는 워터마크 정확도 향상의 핵심이며, MSE는 잠재공간 일관성을 유지해 모델이 과도하게 편향되지 않도록 한다.

학습 데이터는 확산 파이프라인을 이용해 (I, z₀, z_T) 삼중항을 합성한다. 여기서 z_T는 표준 정규분포에서 샘플링된 노이즈이며, 그 부호가 바로 정답 마스크 m이다. 이렇게 만든 대규모 합성 데이터셋은 실제 이미지와 동일한 통계적 특성을 가지면서도 정확한 라벨을 제공한다. 데이터 증강(리사이징, 블러, 크롭 등)을 적용해 다양한 왜곡 상황에서도 강인한 추출 성능을 확보한다.

실험에서는 Stable Diffusion 2.1, SDXL, SD 3.5, DiT 등 다양한 백본과 스케줄러(DPM‑Solver, DDIM, Euler‑discrete)를 대상으로 평가하였다. 모든 설정에서 OSI는 FLOPs를 20배 이상 절감하고, 추출 속도는 0.06 s(1 step)에서 1.92 s(50 step)로 크게 단축되었다. 정확도 면에서도 TPR@FPR=1e‑6이 0.998 ~ 1.000 수준으로 유지되었으며, 비트 정확도와 페이로드 비율도 기존 GS 대비 5 %~30 % 상승하였다. 특히 적대적 공격(노이즈, 압축, 색상 변형) 상황에서도 OSI는 견고한 복원률을 보이며, 채널 용량을 실질적으로 확장한 것으로 해석된다.

통신 이론 관점에서 OSI는 “채널 개선”에 해당한다. 기존 연구가 암호화(코딩) 단계만 최적화해 채널 용량 한계에 머물렀다면, OSI는 역전 모델 자체를 학습시켜 채널의 신뢰성을 높인다. 이는 Shannon의 채널 용량 개념과 일치하며, 향후 더 복잡한 코딩 스킴(예: LDPC, Polar 코드)과 결합하면 이론적 한계에 근접할 가능성을 제시한다.

요약하면, OSI는 (1) 워터마크 추출을 부호 분류 문제로 재정의, (2) 확산 백본을 활용한 효율적 초기화, (3) 합성 데이터 기반 대규모 지도학습, (4) 다중 스케줄러·모델에 대한 일반화 검증이라는 네 축을 통해 기존 다중‑step 역전 방식의 한계를 극복한다. 이는 실시간 서비스, 대규모 이미지 플랫폼 등에서 저비용·고신뢰 워터마크 검증을 가능하게 하며, 향후 확산 기반 저작권 보호 체계의 핵심 구성 요소가 될 전망이다.

한 번에 끝내는 확산 워터마크 추출 OSI

초록

상세 분석

댓글 및 학술 토론

의견 남기기