손실 없는 저작권 보호를 위한 내재 모델 지문 추출
초록
TrajPrint은 확산 모델의 결정론적 DDIM 샘플링 경로를 역추적해 고유한 노이즈 트리거를 생성하고, 이를 물리적 워터마크와 결합해 검증 대상 모델만이 워터마크를 복원하도록 한다. 모델 파라미터를 전혀 수정하지 않으며, 블랙박스 API 환경에서도 원본 성능을 손상시키지 않고 저작권을 검증한다.
상세 분석
본 논문은 확산 모델이 DDIM을 통해 구현되는 결정론적 확률 흐름 ODE를 고유한 고차원 매니폴드 매핑으로 간주한다. 이 매핑은 모델 파라미터 θ에 의해 완전히 정의되며, 동일한 초기 노이즈 z는 모델마다 전혀 다른 이미지 궤적을 만든다. 저자들은 이 특성을 “내재 모델 지문”이라 명명하고, 지문을 추출하기 위해 두 단계의 전략을 제시한다. 첫 번째 단계는 워터마크가 삽입된 이미지(I_w)를 VAE 인코더로 잠재 공간에 매핑한 뒤, DDIM 역전파 Ψ⁻¹_θ를 적용해 해당 이미지가 생성될 때의 초기 노이즈 x_T를 정확히 복원한다. 이 과정은 완전 역전 가능성을 이용해 모델 고유의 생성 경로를 “잠금”한다. 그러나 역전 과정에서 발생하는 이산화 오차와 수치적 손실 때문에 직접 복원된 x_T만으로는 워터마크가 손상될 위험이 있다. 이를 보완하기 위해 두 번째 단계에서는 x_T를 초기값으로 하는 최적화 변수 z를 도입하고, 다음 세 가지 손실을 동시에 최소화한다. ① 워터마크 복원 손실 L_w는 생성된 이미지 D(Ψ_θ(z))에서 사전 학습된 워터마크 디코더 D_w가 원본 비트열 m을 정확히 복원하도록 BCE를 적용한다. ② 재구성 손실 L_rec은 L2와 퍼셉추얼 손실(예: LPIPS)을 결합해 생성 이미지가 워터마크가 삽입된 앵커 I_w와 시각·의미적으로 일치하도록 강제한다. 이는 모델이 해당 매니폴드 상의 특정 지점을 통과하도록 유도한다. ③ 정규화 손실 L_reg은 최적화된 z가 원래 역전된 노이즈 x_T와 가까운 지역에 머물게 함으로써, 최종 트리거가 다른 모델의 매니폴드와 겹치지 않도록 한다. 최적화 결과 z는 “지문 노이즈”로서, 목표 모델 G_θ에 입력될 경우 정확히 I_w와 연결된 경로를 따라가며 워터마크를 복원한다. 반면 비목표 모델 G_φ는 매니폴드 불일치로 인해 전혀 다른 이미지를 생성하고, 워터마크 디코딩이 실패한다. 검증 단계에서는 z를 의심 모델에 원자적(atomic) 추론으로 입력하고, 복원된 비트열의 정확도를 측정한다. 저자들은 이를 하나표본 t-검정으로 통계적 유의성을 평가함으로써, “정당한 저작권 주장”을 과학적으로 입증한다. 주요 기여는 (1) 모델 파라미터를 전혀 변경하지 않는 완전 무손실 방식, (2) 블랙박스 API에서도 동작 가능한 원자적 추론 기반 검증, (3) 이중 앵커(입력·출력) 최적화로 높은 특이성 및 강인성을 확보한 점이다. 실험에서는 Stable Diffusion, DALL·E 등 다양한 아키텍처와, LoRA, 양자화, 프루닝 등 다양한 변형 공격에 대해 높은 검증 성공률을 보였으며, 기존 워터마크 삽입 방식이 초래하는 이미지 품질 저하를 전혀 관찰하지 못했다.
댓글 및 학술 토론
Loading comments...
의견 남기기